一种测序数据GC偏向性校正的方法及其装置

    公开(公告)号:CN111627498B

    公开(公告)日:2022-10-04

    申请号:CN202010436420.X

    申请日:2020-05-21

    IPC分类号: G16B20/30 G16B30/10 G16B40/00

    摘要: 一种测序数据GC偏向性校正的方法,包括如下步骤:获取基因组的测序数据比对数据可供计算分析区间R;从可供计算分析区间R中获取最高频率片段长度数F;通过对区间R进行不重复的抽样,抽样数N小于或等于区间R的总长度;计算每一个抽出的位置P对应的如下A)‑B)的参数:A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;汇总每一个位置上述的数值,对每一个Gp值进行分层统计,最终计算每一个Gp值对应的GC片段比例;将测序深度除以Rgc进行测序深度计算修正。本发明的GC偏向性校正方法构建的模型,修正效果好。

    一种检测RNA跨样本交叉污染率的方法和装置

    公开(公告)号:CN111370065B

    公开(公告)日:2022-10-04

    申请号:CN202010224358.8

    申请日:2020-03-26

    IPC分类号: G16B30/10

    摘要: 本发明公开了一种检测RNA跨样本交叉污染率的方法和装置,其中,方法包括:获得待检测样本的测序数据与参考基因组之间的比对结果文件;从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。本发明通过筛选稳定表达的多态性位点作为污染率计算软件的输入,改进了该软件只能用于DNA污染率评估的不足,程序操作方便,分析速度快,自动化程度高,与标准品对比,分析结果可信度高,实现对RNA样本的质量评估,有助于后续分析的准确性。

    一种测序数据GC偏向性校正的方法及其装置

    公开(公告)号:CN111627498A

    公开(公告)日:2020-09-04

    申请号:CN202010436420.X

    申请日:2020-05-21

    IPC分类号: G16B20/30 G16B30/10 G16B40/00

    摘要: 一种测序数据GC偏向性校正的方法,包括如下步骤:获取基因组的测序数据比对数据可供计算分析区间R;从可供计算分析区间R中获取最高频率片段长度数F;通过对区间R进行不重复的抽样,抽样数N小于或等于区间R的总长度;计算每一个抽出的位置P对应的如下A)-B)的参数:A)位置P到位置P+F之间的序列中的G碱基和C碱基的个数之和Gp;B)位置P上比对片段数Fp,所述比对片段的起始位置为位置P;汇总每一个位置上述的数值,对每一个Gp值进行分层统计,最终计算每一个Gp值对应的GC片段比例;将测序深度除以Rgc进行测序深度计算修正。本发明的GC偏向性校正方法构建的模型,修正效果好。

    一种检测RNA跨样本交叉污染率的方法和装置

    公开(公告)号:CN111370065A

    公开(公告)日:2020-07-03

    申请号:CN202010224358.8

    申请日:2020-03-26

    IPC分类号: G16B30/10

    摘要: 本发明公开了一种检测RNA跨样本交叉污染率的方法和装置,其中,方法包括:获得待检测样本的测序数据与参考基因组之间的比对结果文件;从比对结果文件中筛选出覆盖多态性位点且表达量不低于设定阈值的持家基因蛋白质编码区域作为信息提取区间;利用信息提取区间、比对结果文件和遗传多态性位点信息数据库计算样本污染率。本发明通过筛选稳定表达的多态性位点作为污染率计算软件的输入,改进了该软件只能用于DNA污染率评估的不足,程序操作方便,分析速度快,自动化程度高,与标准品对比,分析结果可信度高,实现对RNA样本的质量评估,有助于后续分析的准确性。