- 专利标题: 基于机器学习的生物信息学数据处理方法、系统及介质
-
申请号: CN202410474853.2申请日: 2024-04-19
-
公开(公告)号: CN118072835B公开(公告)日: 2024-09-17
- 发明人: 何加铭 , 王钦文 , 吴东舒 , 单丹丹 , 江文玲 , 金錱 , 洪锐 , 郑国俊 , 张济鹏 , 雷宣龙 , 周林
- 申请人: 宁波甬恒瑶瑶智能科技有限公司
- 申请人地址: 浙江省宁波市镇海区庄市街道中官西路1277号启迪科技园(宁波)1号11-1室(A栋1101室)
- 专利权人: 宁波甬恒瑶瑶智能科技有限公司
- 当前专利权人: 宁波甬恒瑶瑶智能科技有限公司
- 当前专利权人地址: 浙江省宁波市镇海区庄市街道中官西路1277号启迪科技园(宁波)1号11-1室(A栋1101室)
- 代理机构: 苏州科权知识产权代理事务所
- 代理商 邹宇
- 主分类号: G16B40/00
- IPC分类号: G16B40/00 ; G16B50/30 ; G06F18/15 ; G06F18/213 ; G06F18/243 ; G06N5/01
摘要:
本发明提供基于机器学习的生物信息学数据处理方法、系统及介质,涉及数据处理技术领域,包括:创建样品数据库和已知数据库;对样品数据库中的蛋白质分子进行编码,得到样品编码库,对已知数据库中的蛋白质分子进行编码,得到已知编码库;对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;对正常数据集进行特征提取,得到正常特征集;对缺失数据集进行预补全,得到估计值数据集;训练随机森林模型对正常特征集进行分类;基于训练完成的随机森林模型对估计值数据集进行特征补全,得到补全数据;本发明用于解决现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全,因此在后续的分类上也会存在缺陷的问题。
公开/授权文献
- CN118072835A 基于机器学习的生物信息学数据处理方法、系统及介质 公开/授权日:2024-05-24