一种预测DNA蛋白质结合位点的集成学习方法
摘要:
本发明涉及一种预测DNA蛋白质结合位点的集成学习方法,其包括以下步骤:获取DNA结合蛋白质位点的蛋白质序列数据;对DNA结合蛋白质位点的蛋白质序列数据预处理;使用one‑hot编码方式构建输入数据;将提取的特征合并,构建每个蛋白质序列上氨基酸的特征,将其作为输入数据;使用SMOTE算法对正样本数据进行过采样;根据正样本大小将负样本数据分成多份,每份负样本与正样本组合成一个新的数据子集,得到N个数据子集;每个数据子集使用卷积神经网络进行训练;对N个卷积神经网络的结果进行多数投票法集成,从而得到预测结果。本发明解决了不平衡数据情况下的DNA蛋白质结合位点预测问题,提高了预测的准确性。
公开/授权文献
0/0