对基因组组装错误进行识别的方法和纠错的方法与相关装置

    公开(公告)号:CN118351933A

    公开(公告)日:2024-07-16

    申请号:CN202410785624.2

    申请日:2024-06-18

    IPC分类号: G16B20/30

    摘要: 本发明提供了一种对基因组组装错误进行识别的方法和纠错的方法与相关装置。对基因组组装错误进行识别的方法包括:将第一测序数据回比到第一组装基因组,其中,第一组装基因组为利用第一测序数据组装而成,第一测序数据为三代测序数据;对第一组装基因组进行程序滑窗,并计算每个窗口的窗口深度及所有上述窗口的平均窗口深度;查找出高于或低于深度阈值的窗口,记为基因组组装错误区域;上述深度阈值为平均窗口深度的设定百分比。本发明涉及基因组学和生物信息学领域,解决了现有技术中三代测序数据组装基因组时在部分复杂区域组装出来的结果存在准确性低的问题。应用本发明的技术方案有助于进一步提高基因组组装结果的准确性。

    同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用

    公开(公告)号:CN116168763A

    公开(公告)日:2023-05-26

    申请号:CN202211691347.6

    申请日:2022-09-06

    IPC分类号: G16B30/20 G16B20/30 G16B30/10

    摘要: 本发明公开了一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用。该分型组装的方法包括:步骤1、将样本的测序数据集与近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;步骤2、提取单碱基深度≥1/2平均深度的测序数据集IV;步骤3、将测序数据集I与测序数据集III组装;将测序数据集II与测序数据集III、测序数据集IV组装。本发明的方法和装置具有良好的分型组装效果,可以应用于高度同源的同源四倍体样本,而且花费较低,取样容易。