-
公开(公告)号:CN116230074B
公开(公告)日:2024-06-11
申请号:CN202211606821.0
申请日:2022-12-14
申请人: 粤港澳大湾区数字经济研究院(福田)
摘要: 本发明公开一种蛋白质结构预测方法、模型训练方法、装置、设备及介质,涉及生物信息、深度学习和计算机应用技术领域,蛋白质结构预测模型的训练方法包括步骤:获取包括已知的蛋白质序列和氨基酸残基的理化性质的训练数据集;根据蛋白质序列生成含有蛋白质序列信息的第一特征向量;对氨基酸残基的理化性质进行聚类,并根据聚类后的氨基酸残基的理化性质生成含有氨基酸残基理化信息的第二特征向量;利用第一特征向量和第二特征向量,对特征提取网络和结构预测网络进行训练,得到蛋白质结构预测模型。本发明提供的蛋白质结构预测模型的训练方法,无需复杂的模型进行输入特征的提取,计算速度快,有效节省了蛋白质预测模型的训练时间。
-
公开(公告)号:CN115630646B
公开(公告)日:2023-05-16
申请号:CN202211638260.2
申请日:2022-12-20
申请人: 粤港澳大湾区数字经济研究院(福田)
IPC分类号: G06F40/289 , G06F40/216 , G06N3/0442 , G16B30/00 , G06N3/08
摘要: 本发明公开一种抗体序列预训练模型的训练方法及相关设备。该训练方法包括步骤:获取抗体氨基酸序列;将抗体氨基酸序列进行等长处理;在经过等长处理后的序列中,将每个氨基酸字符作为中心字符,将中心字符前后m位的字符分别添加为中心字符的前缀和后缀,形成每个氨基酸字符分别对应的新词;将每个氨基酸的新词分别编码为对应的数字编码,得到数字编码序列;将数字编码序列输入抗体序列预训练模型进行训练,得到预训练好的词向量。本发明采用该复杂的新词构造方法,有效的解决了常规自然生物词表中仅包含20‑26词的弊端,将词表规模极大地提高到万级词表,有利于抗体序列预训练模型学习到更深入更完整的词向量信息用于表征抗体序列。
-
公开(公告)号:CN116230074A
公开(公告)日:2023-06-06
申请号:CN202211606821.0
申请日:2022-12-14
申请人: 粤港澳大湾区数字经济研究院(福田)
摘要: 本发明公开一种蛋白质结构预测方法、模型训练方法、装置、设备及介质,涉及生物信息、深度学习和计算机应用技术领域,蛋白质结构预测模型的训练方法包括步骤:获取包括已知的蛋白质序列和氨基酸残基的理化性质的训练数据集;根据蛋白质序列生成含有蛋白质序列信息的第一特征向量;对氨基酸残基的理化性质进行聚类,并根据聚类后的氨基酸残基的理化性质生成含有氨基酸残基理化信息的第二特征向量;利用第一特征向量和第二特征向量,对特征提取网络和结构预测网络进行训练,得到蛋白质结构预测模型。本发明提供的蛋白质结构预测模型的训练方法,无需复杂的模型进行输入特征的提取,计算速度快,有效节省了蛋白质预测模型的训练时间。
-
公开(公告)号:CN115620807A
公开(公告)日:2023-01-17
申请号:CN202211632637.3
申请日:2022-12-19
申请人: 粤港澳大湾区数字经济研究院(福田)
摘要: 本发明所提供的靶点蛋白分子与药物分子之间相互作用强度的预测方法,包括:获取待预测的目标靶点蛋白分子与药物分子的复合物;对所述复合物进行图构建处理,得到目标分子图;将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;其中,所述图神经网络中包括边的自注意力机制图网络。本发明通过使用边的自注意力机制图网络对复合物的目标分子图上边的信息进行更新,进而提高了图神经网络预测两个分子之间相互作用强度的准确率。
-
公开(公告)号:CN116543829A
公开(公告)日:2023-08-04
申请号:CN202310645923.1
申请日:2023-06-01
申请人: 粤港澳大湾区数字经济研究院(福田)
摘要: 本发明涉及生物制药技术领域,尤其涉及一种蛋白质生成的方法及相关设备。该方法包括步骤:获取蛋白质的结构数据和/或序列数据;利用所述蛋白质的结构数据和/或序列数据计算得到负归一化泊松经验场,训练神经网络学习所述负归一化泊松经验场,得到泊松流生成模型;根据所述泊松流生成模型,生成新的蛋白质。本发明提出了基于泊松流生成模型对蛋白质结构和序列进行生成的人工智能方法,该方法所生成的二面角与键角可以反映自然的二级构象,生成的序列符合蛋白质序列内在表达,并不是简单地生成与自然界中存在的序列“相似”的序列。此外,本发明的泊松流生成模型能够生成长度可变的蛋白质。
-
公开(公告)号:CN115620807B
公开(公告)日:2023-05-23
申请号:CN202211632637.3
申请日:2022-12-19
申请人: 粤港澳大湾区数字经济研究院(福田)
摘要: 本发明所提供的靶点蛋白分子与药物分子之间相互作用强度的预测方法,包括:获取待预测的目标靶点蛋白分子与药物分子的复合物;对所述复合物进行图构建处理,得到目标分子图;将所述目标分子图输入预先训练的图神经网络,得到所述目标靶点蛋白分子与所述药物分子之间的相互作用强度预测值;其中,所述图神经网络中包括边的自注意力机制图网络。本发明通过使用边的自注意力机制图网络对复合物的目标分子图上边的信息进行更新,进而提高了图神经网络预测两个分子之间相互作用强度的准确率。
-
公开(公告)号:CN115630646A
公开(公告)日:2023-01-20
申请号:CN202211638260.2
申请日:2022-12-20
申请人: 粤港澳大湾区数字经济研究院(福田)
IPC分类号: G06F40/289 , G06F40/216 , G06N3/0442 , G16B30/00 , G06N3/08
摘要: 本发明公开一种抗体序列预训练模型的训练方法及相关设备。该训练方法包括步骤:获取抗体氨基酸序列;将抗体氨基酸序列进行等长处理;在经过等长处理后的序列中,将每个氨基酸字符作为中心字符,将中心字符前后m位的字符分别添加为中心字符的前缀和后缀,形成每个氨基酸字符分别对应的新词;将每个氨基酸的新词分别编码为对应的数字编码,得到数字编码序列;将数字编码序列输入抗体序列预训练模型进行训练,得到预训练好的词向量。本发明采用该复杂的新词构造方法,有效的解决了常规自然生物词表中仅包含20‑26词的弊端,将词表规模极大地提高到万级词表,有利于抗体序列预训练模型学习到更深入更完整的词向量信息用于表征抗体序列。
-
-
-
-
-
-