一种测序数据GC偏向性校正的方法及其装置

    公开(公告)号:CN111627498B

    公开(公告)日:2022-10-04

    申请号:CN202010436420.X

    申请日:2020-05-21

    IPC分类号: G16B20/30 G16B30/10 G16B40/00

    摘要: 一种测序数据GC偏向性校正的方法,包括如下步骤:获取基因组的测序数据比对数据可供计算分析区间R;从可供计算分析区间R中获取最高频率片段长度数F;通过对区间R进行不重复的抽样,抽样数N小于或等于区间R的总长度;计算每一个抽出的位置P对应的如下A)‑B)的参数:A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;汇总每一个位置上述的数值,对每一个Gp值进行分层统计,最终计算每一个Gp值对应的GC片段比例;将测序深度除以Rgc进行测序深度计算修正。本发明的GC偏向性校正方法构建的模型,修正效果好。

    一种检测RNA跨样本交叉污染率的方法和装置

    公开(公告)号:CN111370065B

    公开(公告)日:2022-10-04

    申请号:CN202010224358.8

    申请日:2020-03-26

    IPC分类号: G16B30/10

    摘要: 本发明公开了一种检测RNA跨样本交叉污染率的方法和装置,其中,方法包括:获得待检测样本的测序数据与参考基因组之间的比对结果文件;从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。本发明通过筛选稳定表达的多态性位点作为污染率计算软件的输入,改进了该软件只能用于DNA污染率评估的不足,程序操作方便,分析速度快,自动化程度高,与标准品对比,分析结果可信度高,实现对RNA样本的质量评估,有助于后续分析的准确性。

    一种测序数据GC偏向性校正的方法及其装置

    公开(公告)号:CN111627498A

    公开(公告)日:2020-09-04

    申请号:CN202010436420.X

    申请日:2020-05-21

    IPC分类号: G16B20/30 G16B30/10 G16B40/00

    摘要: 一种测序数据GC偏向性校正的方法,包括如下步骤:获取基因组的测序数据比对数据可供计算分析区间R;从可供计算分析区间R中获取最高频率片段长度数F;通过对区间R进行不重复的抽样,抽样数N小于或等于区间R的总长度;计算每一个抽出的位置P对应的如下A)-B)的参数:A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;汇总每一个位置上述的数值,对每一个Gp值进行分层统计,最终计算每一个Gp值对应的GC片段比例;将测序深度除以Rgc进行测序深度计算修正。本发明的GC偏向性校正方法构建的模型,修正效果好。

    一种检测RNA跨样本交叉污染率的方法和装置

    公开(公告)号:CN111370065A

    公开(公告)日:2020-07-03

    申请号:CN202010224358.8

    申请日:2020-03-26

    IPC分类号: G16B30/10

    摘要: 本发明公开了一种检测RNA跨样本交叉污染率的方法和装置,其中,方法包括:获得待检测样本的测序数据与参考基因组之间的比对结果文件;从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。本发明通过筛选稳定表达的多态性位点作为污染率计算软件的输入,改进了该软件只能用于DNA污染率评估的不足,程序操作方便,分析速度快,自动化程度高,与标准品对比,分析结果可信度高,实现对RNA样本的质量评估,有助于后续分析的准确性。

    一种二代测序平台的基因组数据高效利用方法和装置

    公开(公告)号:CN111445956B

    公开(公告)日:2021-06-22

    申请号:CN202010328112.5

    申请日:2020-04-23

    IPC分类号: G16B30/10

    摘要: 本发明公开了一种二代测序平台的基因组数据高效利用方法和装置,其中,所述方法包括:(1)对二代测序原始数据进行质控,质控中保留中部或尾部包含接头序列的读对;(2)质控达标的数据与参考基因组进行比对后,获得全长比对、部分比对以及未比对上三种比对情况;(3)针对三种比对情况,分别捕获插入片段的起点和终点,统计插入片段的长度。本发明方法保留了更多短片段的数据,以及准确定位插入片段的起点和终点,准确剔除测序数据中的外源序列,该方法可以有效提高血浆中检测到的短片段ctDNA含量,有助于二代测序数据在液体活检中的高效应用。