- 专利标题: 一种预测DNA蛋白质结合位点的集成学习方法
-
申请号: CN201810489037.3申请日: 2018-05-21
-
公开(公告)号: CN108763865B公开(公告)日: 2023-10-20
- 发明人: 张永清 , 郜东瑞 , 王婷 , 吴锡 , 何嘉
- 申请人: 成都信息工程大学
- 申请人地址: 四川省成都市西南航空港经济开发区学府路1段24号
- 专利权人: 成都信息工程大学
- 当前专利权人: 成都信息工程大学
- 当前专利权人地址: 四川省成都市西南航空港经济开发区学府路1段24号
- 代理机构: 北京睿智保诚专利代理事务所
- 代理商 周新楣
- 主分类号: G16B20/30
- IPC分类号: G16B20/30 ; G16B30/00 ; G16B40/00 ; G06N3/0464 ; G06N3/098
摘要:
本发明涉及一种预测DNA蛋白质结合位点的集成学习方法,其包括以下步骤:获取DNA结合蛋白质位点的蛋白质序列数据;对DNA结合蛋白质位点的蛋白质序列数据预处理;使用one‑hot编码方式构建输入数据;将提取的特征合并,构建每个蛋白质序列上氨基酸的特征,将其作为输入数据;使用SMOTE算法对正样本数据进行过采样;根据正样本大小将负样本数据分成多份,每份负样本与正样本组合成一个新的数据子集,得到N个数据子集;每个数据子集使用卷积神经网络进行训练;对N个卷积神经网络的结果进行多数投票法集成,从而得到预测结果。本发明解决了不平衡数据情况下的DNA蛋白质结合位点预测问题,提高了预测的准确性。
公开/授权文献
- CN108763865A 一种预测DNA蛋白质结合位点的集成学习方法 公开/授权日:2018-11-06