一种二代测序平台的基因组数据高效利用方法和装置

    公开(公告)号:CN111445956A

    公开(公告)日:2020-07-24

    申请号:CN202010328112.5

    申请日:2020-04-23

    IPC分类号: G16B30/10

    摘要: 本发明公开了一种二代测序平台的基因组数据高效利用方法和装置,其中,所述方法包括:(1)对二代测序原始数据进行质控,质控中保留中部或尾部包含接头序列的读对;(2)质控达标的数据与参考基因组进行比对后,获得全长比对、部分比对以及未比对上三种比对情况;(3)针对三种比对情况,分别捕获插入片段的起点和终点,统计插入片段的长度。本发明方法保留了更多短片段的数据,以及准确定位插入片段的起点和终点,准确剔除测序数据中的外源序列,该方法可以有效提高血浆中检测到的短片段ctDNA含量,有助于二代测序数据在在液体活检中的高效应用。

    一种二代测序平台的基因组数据高效利用方法和装置

    公开(公告)号:CN111445956B

    公开(公告)日:2021-06-22

    申请号:CN202010328112.5

    申请日:2020-04-23

    IPC分类号: G16B30/10

    摘要: 本发明公开了一种二代测序平台的基因组数据高效利用方法和装置,其中,所述方法包括:(1)对二代测序原始数据进行质控,质控中保留中部或尾部包含接头序列的读对;(2)质控达标的数据与参考基因组进行比对后,获得全长比对、部分比对以及未比对上三种比对情况;(3)针对三种比对情况,分别捕获插入片段的起点和终点,统计插入片段的长度。本发明方法保留了更多短片段的数据,以及准确定位插入片段的起点和终点,准确剔除测序数据中的外源序列,该方法可以有效提高血浆中检测到的短片段ctDNA含量,有助于二代测序数据在液体活检中的高效应用。

    一种检测样本污染率的方法及装置

    公开(公告)号:CN115083529B

    公开(公告)日:2023-03-14

    申请号:CN202210811098.3

    申请日:2022-07-11

    IPC分类号: G16B50/30 G16B20/30

    摘要: 一种检测样本污染率的方法及装置,该方法包括:位点MAF提取步骤,包括提取待测样本的测序数据中的位点在数据库中的MAF;过滤步骤,包括过滤去除不符合条件的SNP位点;错误率计算步骤,包括计算不同碱基替换的错误率;似然值计算步骤,包括计算待测样本在不同污染率下的似然值;候选污染率计算步骤,包括根据每个SNP位点计算的似然值对数与位点深度计算加权平均值,选择加权平均值最大的似然值对应的污染率为候选污染率;优化步骤,包括根据优化函数优化候选污染率,获得最终的样本污染率。该方法的分析结果可信度高。