一种生物序列的向量化表示方法
摘要:
本发明提供了一种生物序列向量化表示方法,包括以下步骤:S1、获取大量生物基因序列的数据并对数据进行格式化和整合;S2、对数据进行预处理,对所读取的生物基因序列进行遍历,对每条生物基因序列中的部分基因片段进行检测、调整和修改,直到满足要求;S3、构建训练模型所需的数据集,对数据集的数据进行格式上的变换,得出训练集;S4、利用训练集训练用于生成生物序列的向量化表示的模型;S5、通过训练好的模型生成生物序列的向量化表示,并将这些向量化表示数据保存在本地文件内。本发明提出的方法能够为生物基因序列提供低维、连续且稠密的向量化表示,相较于独热表示可以更好的提取和抽象生物基因序列中含有的特征信息。
0/0