一种考虑拷贝数变异因素的基因组结构变异分型方法

    公开(公告)号:CN111583998B

    公开(公告)日:2023-05-02

    申请号:CN202010373524.0

    申请日:2020-05-06

    Abstract: 本发明公开了一种考虑拷贝数变异因素的基因组结构变异分型方法,输入序列比对文件和突变识别文件并统计记录各变异位点的特征值;根据输入文件提取特征值,从突变识别文件VCF中提取基因型作为分类监督,通过Python提取VCF文件中第八列type后的基因型信息,一行对应一个变异依次将特征值以空格分隔,基因型以分隔符存储到txt文件中;确定核函数和核函数参数;将数据分为M‑RVM模型的训练集和测试集;采用快速二类极大似然估计求解先验参数,采用最大期望估计算法求解核参数;输出分型结果、估计概率和总体精度。本方法全面理清了考虑拷贝数变异因素的基因组结构变异分型问题,利用多分类相关向量机设计了一种高准确率、高效率的解法。

    一种基于时序数据的在线监控数据质量方法

    公开(公告)号:CN111429022A

    公开(公告)日:2020-07-17

    申请号:CN202010269904.X

    申请日:2020-04-08

    Abstract: 本发明公开了一种基于时序数据的在线监控数据质量方法,输入包括数据质量状态、数据质量不合格率、数据产生时间的时序数据,对时序数据进行数值化预处理;分别采用SESOP、SESOP-MFI、STSSO和STSSO-MFIR方法计算统计量,训练监控模型;通过计算得到统计量序列,利用对统计量序列的监控,并根据情况设定平均运行步长获得控制极限;监控质量风险,根据被监控数据的输入,实现输入一条数据及监控一条数据的实时监控。本发明能够更为快速稳定的对不同阶段的数据质量情况进行监控,并对发生的质量恶化做出预警。

    一种考虑拷贝数变异因素的基因组结构变异分型方法

    公开(公告)号:CN111583998A

    公开(公告)日:2020-08-25

    申请号:CN202010373524.0

    申请日:2020-05-06

    Abstract: 本发明公开了一种考虑拷贝数变异因素的基因组结构变异分型方法,输入序列比对文件和突变识别文件并统计记录各变异位点的特征值;根据输入文件提取特征值,从突变识别文件VCF中提取基因型作为分类监督,通过Python提取VCF文件中第八列type后的基因型信息,一行对应一个变异依次将特征值以空格分隔,基因型以分隔符存储到txt文件中;确定核函数和核函数参数;将数据分为M-RVM模型的训练集和测试集;采用快速二类极大似然估计求解先验参数,采用最大期望估计算法求解核参数;输出分型结果、估计概率和总体精度。本方法全面理清了考虑拷贝数变异因素的基因组结构变异分型问题,利用多分类相关向量机设计了一种高准确率、高效率的解法。

    杂合变异下校正第三代测序数据中测序错误的混合方法

    公开(公告)号:CN111583997B

    公开(公告)日:2022-03-01

    申请号:CN202010373513.2

    申请日:2020-05-06

    Abstract: 本发明公开了一种杂合变异下校正第三代测序数据中测序错误的混合方法,输入数据为第二代测序数据和第三代测序数据,利用已有的比对软件和组装软件对输入数据进行处理,基于贝叶斯分类器原理对基因位点的杂合性进行判断,结合杂合判断的结果对第三代测序数据中的读段进行校正,解决了现有校正算法在处理杂合变异时的低准确度和无效性的问题。本发明在校正测序错误时考虑了杂合变异,设计了一系列概率模型对杂合性进行判断和分类,再针对不同的杂合性分类采用不同的校正策略,解决了已有校正方法遇到杂合变异时出现校正错误的问题。

    一种基于滤波策略的高容错基因组复杂结构变异检测方法

    公开(公告)号:CN111445950A

    公开(公告)日:2020-07-24

    申请号:CN202010197240.0

    申请日:2020-03-19

    Abstract: 本发明公开了一种基于滤波策略的高容错基因组复杂结构变异检测方法,对SAM格式的输入文件进行预处理,遍历最优质量比对读段中的CIGAR字段;根据比对后的CIGAR字段和变异分数计算准则,计算出各个位点在当前读段对应的变异分数,并将其预先保存在每个位点的变异分数集合中;统计每个位点的变异分数集合中的平均数当作该位点最终的变异分数并得到此样本的变异分数函数;对变异分数函数进行卡尔曼或高斯滤波,得到滤波降噪后的变异分数函数;依照滤波后的变异分数函数,设定阈值并分离出结构变异区域,提取特征;训练支持向量机(SVM)模型,再用训练好的SVM模型对结构变异区域分类并得到复杂indel结果集。本发明解决测序错误对结构变异的确定产生的干扰。

    一种基于滤波策略的高容错基因组复杂结构变异检测方法

    公开(公告)号:CN111445950B

    公开(公告)日:2022-10-25

    申请号:CN202010197240.0

    申请日:2020-03-19

    Abstract: 本发明公开了一种基于滤波策略的高容错基因组复杂结构变异检测方法,对SAM格式的输入文件进行预处理,遍历最优质量比对读段中的CIGAR字段;根据比对后的CIGAR字段和变异分数计算准则,计算出各个位点在当前读段对应的变异分数,并将其预先保存在每个位点的变异分数集合中;统计每个位点的变异分数集合中的平均数当作该位点最终的变异分数并得到此样本的变异分数函数;对变异分数函数进行卡尔曼或高斯滤波,得到滤波降噪后的变异分数函数;依照滤波后的变异分数函数,设定阈值并分离出结构变异区域,提取特征;训练支持向量机(SVM)模型,再用训练好的SVM模型对结构变异区域分类并得到复杂indel结果集。本发明解决测序错误对结构变异的确定产生的干扰。

    杂合变异下校正第三代测序数据中测序错误的混合方法

    公开(公告)号:CN111583997A

    公开(公告)日:2020-08-25

    申请号:CN202010373513.2

    申请日:2020-05-06

    Abstract: 本发明公开了一种杂合变异下校正第三代测序数据中测序错误的混合方法,输入数据为第二代测序数据和第三代测序数据,利用已有的比对软件和组装软件对输入数据进行处理,基于贝叶斯分类器原理对基因位点的杂合性进行判断,结合杂合判断的结果对第三代测序数据中的读段进行校正,解决了现有校正算法在处理杂合变异时的低准确度和无效性的问题。本发明在校正测序错误时考虑了杂合变异,设计了一系列概率模型对杂合性进行判断和分类,再针对不同的杂合性分类采用不同的校正策略,解决了已有校正方法遇到杂合变异时出现校正错误的问题。

Patent Agency Ranking