一种抗体序列预训练模型的训练方法及相关设备
摘要:
本发明公开一种抗体序列预训练模型的训练方法及相关设备。该训练方法包括步骤:获取抗体氨基酸序列;将抗体氨基酸序列进行等长处理;在经过等长处理后的序列中,将每个氨基酸字符作为中心字符,将中心字符前后m位的字符分别添加为中心字符的前缀和后缀,形成每个氨基酸字符分别对应的新词;将每个氨基酸的新词分别编码为对应的数字编码,得到数字编码序列;将数字编码序列输入抗体序列预训练模型进行训练,得到预训练好的词向量。本发明采用该复杂的新词构造方法,有效的解决了常规自然生物词表中仅包含20‑26词的弊端,将词表规模极大地提高到万级词表,有利于抗体序列预训练模型学习到更深入更完整的词向量信息用于表征抗体序列。
0/0