-
公开(公告)号:CN114065866A
公开(公告)日:2022-02-18
申请号:CN202111389111.2
申请日:2021-11-22
Applicant: 吉林大学
Abstract: 本发明提供了一种基于参考物种标签约束的宏基因组序列深度聚类方法,设计了基于参考物种标签约束的深度学习预训练模型。本发明建立了基于不同群落的已知物种的预训练数据库,构建预训练数据库时将每条4mer特征向量分为同一物种、相同属不同物种和不同属不同物种三种情况,并分别研究了三种情况下的样本间序列的4mer特征间的关系;建立了预训练模型的标签约束误差函数,并且使用群落已知标签的数据库进行预训练,针对不同的微生物群落构建不同预训练模型;在用户使用时,只需要针对不同的群落加载所需群落的预训练模型,重新加载模型仅仅等待几次微调步骤的迭代即可得到聚类结果。最终,所述聚类方法能够展现非常优秀的聚类性能。
-
公开(公告)号:CN114065866B
公开(公告)日:2024-04-30
申请号:CN202111389111.2
申请日:2021-11-22
Applicant: 吉林大学
IPC: G06F18/23 , G06F18/214 , G06N3/0455 , G06N3/084 , G06N3/006 , G16B40/00
Abstract: 本发明提供了一种基于参考物种标签约束的宏基因组序列深度聚类方法,设计了基于参考物种标签约束的深度学习预训练模型。本发明建立了基于不同群落的已知物种的预训练数据库,构建预训练数据库时将每条4mer特征向量分为同一物种、相同属不同物种和不同属不同物种三种情况,并分别研究了三种情况下的样本间序列的4mer特征间的关系;建立了预训练模型的标签约束误差函数,并且使用群落已知标签的数据库进行预训练,针对不同的微生物群落构建不同预训练模型;在用户使用时,只需要针对不同的群落加载所需群落的预训练模型,重新加载模型仅仅等待几次微调步骤的迭代即可得到聚类结果。最终,所述聚类方法能够展现非常优秀的聚类性能。
-