一种基于半监督学习框架的T细胞受体序列分类方法

    公开(公告)号:CN111489792B

    公开(公告)日:2022-12-09

    申请号:CN202010291254.9

    申请日:2020-04-14

    IPC分类号: G16B40/20 G06K9/62

    摘要: 本发明公开了一种基于半监督学习框架的T细胞受体序列分类方法,选取CDR3β区域作为输入数据,对T细胞受体数据进行特征编码;根据得到的数据,选择支持向量机、随机森林和决策树的监督学习算法分别构造初始分类器C1、C2、C3;对初始分类器C1、C2、C3进行训练得到扩充的新训练集,产生的训练集进行可重复取样获得三个有标记训练集,然后从每个新训练集产生一个分类器,对分类器进行迭代更新;训练完成后,将三个分类器C1、C2、C3通过投票机制作为一个分类器集成进行使用。本发明适用于T细胞受体序列数据难以获得的情况,性能显著优于现有方法。

    一种基于DNA测序数据的同源重组缺陷判定方法

    公开(公告)号:CN111462823A

    公开(公告)日:2020-07-28

    申请号:CN202010270712.0

    申请日:2020-04-08

    IPC分类号: G16B40/20 G16B30/10

    摘要: 本发明公开了一种基于DNA测序数据的同源重组缺陷判定方法,获取特征属性;提取有效数据;基于三重学习法框架,考虑到较好的泛化能力、较高的准确度和对多维特征属性的处理效率,选择三个不同的基分类器H1、H2、H3;对H1、H2、H3进行迭代训练得到扩充训练集,由此对模型进行更新,完成训练过程;使用所训练的模型对未标记样本集U进行标记,根据标记结果完成HRD状态的判定。本发明解决了使用单一或少量基因组不稳定性状态等局部特征来进行HRD状态判定的局限性,克服临床上已知HRD状态的样本数量极少的难点,实现已有样本数据下的多特征属性的学习,能够提高HRD判定方法的性能。

    基于二代测序的石蜡切片样本体细胞突变检测方法和装置

    公开(公告)号:CN110729025A

    公开(公告)日:2020-01-24

    申请号:CN201911297543.3

    申请日:2019-12-17

    摘要: 本发明涉及二代测序分析领域的基于二代测序的石蜡切片样本体细胞突变检测方法和装置。该方法包括:获取新鲜肿瘤冷冻组织样本体细胞突变和肿瘤组织石蜡切片样本体细胞突变最高一致性时的过滤参数作为过滤阈值;检测待测肿瘤组织石蜡切片样本的体细胞突变;过滤与正常样本变异位点集重合的位点;过滤未达到所述过滤阈值的体细胞突变位点;过滤生殖细胞突变和高频突变位点。本发明以PON、以基于石蜡切片组织特征的特异性训练体细胞突变位点过滤阈值以及以已有数据库过滤生殖细胞突变和高频突变位点作为体细胞突变检测的过滤条件,能够快速剔除大部分由石蜡切片制备造成的假阳性结果,提高检测效率和特异性,快速精准检测石蜡切片体细胞突变。

    一种脱落细胞DNA低频突变富集测序方法

    公开(公告)号:CN105132407B

    公开(公告)日:2017-12-12

    申请号:CN201510488017.0

    申请日:2015-08-10

    IPC分类号: C12N15/10 C12Q1/68

    摘要: 本发明提供了一种脱落细胞DNA的低频突变富集测序方法,包括脱落细胞DNA的提取与DNA的打断,样品DNA文库构建、通用文库TT‑COLD PCR扩增富集、探针富集捕获、捕获产物PCR及上机测序、正反双链纠错低频信息分析步骤,具体为基于接头通用引物进行TT COLD PCR对所有类型变异实现第一级突变富集扩增;设计富集探针芯片,针对热点变异将人基因组参考序列hg19设计的探针替换为基于突变碱基设计的探针,其他位点探针不变,进行第二级富集捕获;文库构建中的插入DNA两端12bp自身序列作为标签进行正反双链纠错比对,提高数据利用率,实现低频精确检测,可以对0.01%低频变异具有高特异性检测。