可变剪切事件预测的机器学习模型的训练方法和预测方法及应用

    公开(公告)号:CN116469456B

    公开(公告)日:2023-12-15

    申请号:CN202310454928.6

    申请日:2023-04-21

    摘要: 本发明涉及一种用于可变剪切事件预测的机器学习模型的训练方法和可变剪切事件的预测方法及应用。该用于可变剪切事件预测的机器学习模型的训练方法包括:确定用于获取可变剪切事件的预测结果的候选软件;基于所述候选软件获得机器学习模型的训练真集;以及,使用所述机器学习模型的训练真集对预定机器学习模型进行训练,所述预定机器学习模型采用从所述候选软件中确定的多个软件对可变剪切事件的预测结果获得单一可变剪切事件预测结果。本发明的方法能够显著提高预测结果的置信度,可以(56)对比文件Wangrui Liu et al..Integratingmachine learning to construct aberrantalternative splicing event relatedclassifiers to predict prognosis andimmunotherapy response in patients withhepatocellular carcinoma《.Front.Pharmacol.》.2022,第13卷全文.Kristoffer Vitting-Seerup etal..spliceR: an R package forclassification of alternative splicingand prediction of coding potential fromRNA-seq data《.BMC Bioinformatics》.2014,全文.

    同源四倍体基因组分型组装的方法和装置、构建染色体的装置

    公开(公告)号:CN115148289B

    公开(公告)日:2023-01-24

    申请号:CN202211081173.1

    申请日:2022-09-06

    IPC分类号: G16B30/10 G16B30/20 G16B20/20

    摘要: 本发明公开了一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用。该分型组装的方法包括:步骤1、将样本的测序数据集与近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;步骤2、提取单碱基深度≥1/2平均深度的测序数据集IV;步骤3、将测序数据集I与测序数据集III组装;将测序数据集II与测序数据集III、测序数据集IV组装。本发明的方法和装置具有良好的分型组装效果,可以应用于高度同源的同源四倍体样本,而且花费较低,取样容易。

    同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用

    公开(公告)号:CN116168763A

    公开(公告)日:2023-05-26

    申请号:CN202211691347.6

    申请日:2022-09-06

    IPC分类号: G16B30/20 G16B20/30 G16B30/10

    摘要: 本发明公开了一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用。该分型组装的方法包括:步骤1、将样本的测序数据集与近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;步骤2、提取单碱基深度≥1/2平均深度的测序数据集IV;步骤3、将测序数据集I与测序数据集III组装;将测序数据集II与测序数据集III、测序数据集IV组装。本发明的方法和装置具有良好的分型组装效果,可以应用于高度同源的同源四倍体样本,而且花费较低,取样容易。

    同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用

    公开(公告)号:CN115148289A

    公开(公告)日:2022-10-04

    申请号:CN202211081173.1

    申请日:2022-09-06

    IPC分类号: G16B30/10 G16B30/20 G16B20/20

    摘要: 本发明公开了一种同源四倍体基因组分型组装的方法和装置、构建染色体的方法和装置及其应用。该分型组装的方法包括:步骤1、将样本的测序数据集与近缘二倍体物种的分型后的参考基因组分别进行比对;根据比对结果鉴定基因组变异信息并分型,得到能分型的且与参考基因组相似的测序数据集I、能分型的且与参考基因组不相似的测序数据集II,以及无法分型的测序数据集III;步骤2、提取单碱基深度≥1/2平均深度的测序数据集IV;步骤3、将测序数据集I与测序数据集III组装;将测序数据集II与测序数据集III、测序数据集IV组装。本发明的方法和装置具有良好的分型组装效果,可以应用于高度同源的同源四倍体样本,而且花费较低,取样容易。

    一种基因辅助组装装置、染色体水平基因组及应用

    公开(公告)号:CN116864008A

    公开(公告)日:2023-10-10

    申请号:CN202310606702.3

    申请日:2023-05-26

    摘要: 本发明涉及一种基因辅助组装装置、染色体水平基因组及应用。该装置包括Hi‑C文库构建和测序单元、比对和挑选单元、初步组装单元,以及处理和筛选单元,其中,所述Hi‑C文库构建和测序单元,用于对DNA样品进行Hi‑C文库构建和测序以获得第一数据集;所述比对和挑选单元,用于将所述第一数据集与参考基因组数据集进行比对并挑选,得到第二数据集;所述初步组装单元,用于对所述第二数据集进行初步组装,得到初步组装数据集;所述处理和筛选单元,用于对所述初步组装数据集进行处理和筛选。采用本发明的装置能够将Hi‑C辅助组装的挂载率提高至95%以上。