基于机器学习的生物信息学数据处理方法、系统及介质
摘要:
本发明提供基于机器学习的生物信息学数据处理方法、系统及介质,涉及数据处理技术领域,包括:创建样品数据库和已知数据库;对样品数据库中的蛋白质分子进行编码,得到样品编码库,对已知数据库中的蛋白质分子进行编码,得到已知编码库;对样品编码库中的蛋白质分子编码进行识别分类,得到缺失数据集和正常数据集;对正常数据集进行特征提取,得到正常特征集;对缺失数据集进行预补全,得到估计值数据集;训练随机森林模型对正常特征集进行分类;基于训练完成的随机森林模型对估计值数据集进行特征补全,得到补全数据;本发明用于解决现有的识别方法不能有效地对缺失的生物信息学数据进行精准补全,因此在后续的分类上也会存在缺陷的问题。
0/0