- 专利标题: 一种抗体序列预训练模型的训练方法及相关设备
-
申请号: CN202211638260.2申请日: 2022-12-20
-
公开(公告)号: CN115630646B公开(公告)日: 2023-05-16
- 发明人: 白圣元 , 熊袁鹏 , 刘子敬 , 幺宝刚
- 申请人: 粤港澳大湾区数字经济研究院(福田)
- 申请人地址: 广东省深圳市福田区福保街道市花路长富金茂大厦1号楼39楼3901单元
- 专利权人: 粤港澳大湾区数字经济研究院(福田)
- 当前专利权人: 粤港澳大湾区数字经济研究院(福田)
- 当前专利权人地址: 广东省深圳市福田区福保街道市花路长富金茂大厦1号楼39楼3901单元
- 代理机构: 深圳市君胜知识产权代理事务所
- 代理商 温宏梅
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/216 ; G06N3/0442 ; G16B30/00 ; G06N3/08
摘要:
本发明公开一种抗体序列预训练模型的训练方法及相关设备。该训练方法包括步骤:获取抗体氨基酸序列;将抗体氨基酸序列进行等长处理;在经过等长处理后的序列中,将每个氨基酸字符作为中心字符,将中心字符前后m位的字符分别添加为中心字符的前缀和后缀,形成每个氨基酸字符分别对应的新词;将每个氨基酸的新词分别编码为对应的数字编码,得到数字编码序列;将数字编码序列输入抗体序列预训练模型进行训练,得到预训练好的词向量。本发明采用该复杂的新词构造方法,有效的解决了常规自然生物词表中仅包含20‑26词的弊端,将词表规模极大地提高到万级词表,有利于抗体序列预训练模型学习到更深入更完整的词向量信息用于表征抗体序列。
公开/授权文献
- CN115630646A 一种抗体序列预训练模型的训练方法及相关设备 公开/授权日:2023-01-20