-
公开(公告)号:CN118866080A
公开(公告)日:2024-10-29
申请号:CN202411251058.3
申请日:2024-09-06
Applicant: 湖南大学
IPC: G16B15/30 , G16B20/30 , G16B30/10 , G16B40/00 , G16B40/30 , G06N3/042 , G06N3/045 , G06N3/0464 , G06N3/084
Abstract: 一种RNA结合残基的预测分析方法及装置,该方法通过Pytorch和DGL框架构建GDRBind模型;将设定长度的蛋白质序列输入所述GDRBind模型,并获取蛋白质序列的蛋白质结构数据;通过蛋白质序列搜索软件HHblits生成多序列比对MSA文件;在UniProtKB蛋白质数据库中收集若干RNA结合蛋白序列,并进行聚类处理,获得预训练数据集,使用其对通用蛋白质语言模型进行训练,获得ESM‑RBP表征模型;通过处理获得第一嵌入矩阵和第二嵌入矩阵,并将其进行拼接,获得残基结点特征表示矩阵;对蛋白质序列中所有残基对的边特征进行计算,获得边集;通过等变图神经网络EGNN预测模型预测,输出蛋白质序列的RNA结合残基预测结果。本发明能够解决领域特征挖掘不充分、划分精确性低以及缺少可解释性等方面的问题。
-
公开(公告)号:CN120048335A
公开(公告)日:2025-05-27
申请号:CN202510212593.6
申请日:2025-02-25
Applicant: 湖南大学
IPC: G16B15/30 , G16B40/00 , G16C20/50 , G16C20/70 , G06F18/25 , G06N3/042 , G06N3/045 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于大模型驱动的多模态图学习的药靶结合亲和力预测方法,首先输入残基数为L1和长度为L2的待进行药物靶点结合亲和力预测的蛋白质序列信息和药物小分子SMILES序列信息;然后,使用ESM‑GearNet模型捕捉的蛋白质表征并结合AlphaFold预测的pdb文件共同构建蛋白质结构图,且对蛋白质序列进行分词映射操作;其次,使用RDKit工具包构建药物分子结构图,且对转换成SELFIES序列尽心分词映射操作;再次,构建GinConv和CNN的神经网络对蛋白质和药物分子的序列和结构特征进行提取并融合;最后,搭建KNN神经网络预测模型,将融合后的特征作为输入,得到药物靶点结合亲和力的预测值。本发明提高了药物靶点结合亲和力预测的效率与精确性。
-
公开(公告)号:CN119418777A
公开(公告)日:2025-02-11
申请号:CN202411480782.3
申请日:2024-10-23
Applicant: 湖南大学
IPC: G16B40/00 , G16B40/30 , G16B30/00 , G16B50/10 , G16B50/30 , G06F18/2321 , G06N3/042 , G06N3/0464 , G06N3/045 , G06N3/084
Abstract: 本发明公开了生物信息学技术领域的基于多模态蛋白质语言模型的DNA绑定残基预测方法。该基于多模态蛋白质语言模型的DNA绑定残基预测方法包括以下步骤:将待进行DNA绑定残基预测的蛋白质序列P,依次使用工具分别获取特征文件;将所有特征文件输入ESM3中得到一个嵌入矩阵M;将蛋白质序列处理成残基样本,根据蛋白质结构图搭建等变图神经网络模型,利用已知DNA绑定残基的蛋白质序列构建数据集并训练所搭建的网络;将蛋白质序列的残基样本输入到训练的模型中,得到蛋白质序列的DNA绑定残基。该基于多模态蛋白质语言模型的DNA绑定残基预测方法提高了DNA绑定残基预测的效率与精确性。
-
公开(公告)号:CN119601074A
公开(公告)日:2025-03-11
申请号:CN202411611586.5
申请日:2024-11-12
Applicant: 湖南大学
Abstract: 本发明公开了一种基于生物分子互作结构域增强的蛋白质序列设计方法,包括:先输入一个大小为L×N×3的待进行序列设计的蛋白质主链骨架三维坐标信息;获取与生物分子接触的蛋白质序列和相互作用结构域区间;将获取的序列聚类并取出每个簇的代表序列作为训练集;再提取出每条训练样本的三维结构、二级结构、溶剂可及性和功能注释特征表示;使用LoRA算法微调通用多模态蛋白质语言模型ESM3的最后十层transformer模块,对于位于相互作用结构域区间的掩码残基的损失给予更大的权重;将待进行序列设计的蛋白质主链骨架的原子坐标输入到训练好的模型中,得到目标序列。本发明一方面利用了海量蛋白质的多模态信息;另一方面能生成更加健壮且合理的功能性蛋白质序列。
-
-
-