一种基于RoBERTa词嵌入技术和图注意力机制组合模型的抗菌肽识别方法

    公开(公告)号:CN117542419A

    公开(公告)日:2024-02-09

    申请号:CN202311305640.9

    申请日:2023-10-10

    摘要: 本发明属于生物医学和药物开发技术领域,具体涉及一种使用RoBERTa词嵌入技术和图注意力机制组合模型来对抗菌肽进行识别的方法。本发明通过从国际上已知的一些抗菌肽数据库中采集正样本和从蛋白质数据库采集残基长度范围在5到255之间的蛋白质序列组合作为负样本,并建立样本集;然后进行数据预处理和构建异构图操作,为组合模型输入做准备;接着利用RoBERTa模型来进行词嵌入,为引入更丰富的语义信息;再建立由RoBERTa模型和图注意力机制组成的组合模型并进行评估、参数调优处理;最后利用调优过的模型对肽序列预测其是抗菌肽还是非抗菌肽。本发明不仅将自然语言处理领域的RoBERTa模型用以对肽序列进行词嵌入操作,还将其与图注意力机制结合构建组合模型用以学习更易辨别的抗菌肽特征,从而达到更准确的抗菌肽性能预测目标,有望帮助生物医学领域的研究人员更快地找到潜在的抗菌肽候选药物,加速新药开发过程和解决抗生素耐药性等问题。

    一种基于BERT特征编码技术和深度学习组合模型的抗菌肽预测方法

    公开(公告)号:CN117292749A

    公开(公告)日:2023-12-26

    申请号:CN202311276669.9

    申请日:2023-10-05

    摘要: 本发明属于生物技术和药物开发技术领域,具体涉及一种使用BERT特征编码技术和深度学习组合模型来对抗菌肽进行预测的方法。本发明通过从国际上知名的抗菌肽数据库中收集抗菌肽序列作为正样本和从蛋白质数据库收集蛋白质片段残基长度为5至100的序列作为负样本并建立相应的样本集;然后利用BERT预训练模型来对肽序列进行特征编码操作;接着构建由一维卷积神经网络、长短时记忆网络和注意力机制组成的深度学习组合模型和分类模块;再对深度学习组合模型和分类模块构成的整体模型进行训练、评估和利用元学习技术进行参数优化以最大化性能;最后根据优化过的模型对肽序列进行识别其是否具有抗菌活性。本发明将最新的自然语言处理技术(BERT)与深度学习模型结合,用于解决抗菌肽预测的复杂性问题,从而提供更高的准确性、通用性和效率,有望在生物医学研究和药物研发领域产生显著的创新和应用潜力。