发明公开
- 专利标题: 一种生物序列的向量化表示方法
-
申请号: CN202310263611.4申请日: 2023-03-17
-
公开(公告)号: CN116453596A公开(公告)日: 2023-07-18
- 发明人: 陈湘竣 , 明朝燕 , 夏菡 , 张婷 , 何梦竹 , 吴明晖
- 申请人: 浙江大学 , 浙大城市学院
- 申请人地址: 浙江省杭州市西湖区余杭塘路866号;
- 专利权人: 浙江大学,浙大城市学院
- 当前专利权人: 浙江大学,浙大城市学院
- 当前专利权人地址: 浙江省杭州市西湖区余杭塘路866号;
- 代理机构: 浙江杭州金通专利事务所有限公司
- 代理商 刘晓春
- 主分类号: G16B30/00
- IPC分类号: G16B30/00
摘要:
本发明提供了一种生物序列向量化表示方法,包括以下步骤:S1、获取大量生物基因序列的数据并对数据进行格式化和整合;S2、对数据进行预处理,对所读取的生物基因序列进行遍历,对每条生物基因序列中的部分基因片段进行检测、调整和修改,直到满足要求;S3、构建训练模型所需的数据集,对数据集的数据进行格式上的变换,得出训练集;S4、利用训练集训练用于生成生物序列的向量化表示的模型;S5、通过训练好的模型生成生物序列的向量化表示,并将这些向量化表示数据保存在本地文件内。本发明提出的方法能够为生物基因序列提供低维、连续且稠密的向量化表示,相较于独热表示可以更好的提取和抽象生物基因序列中含有的特征信息。