基于采样与集成学习的蛋白质-DNA绑定残基预测方法

    公开(公告)号:CN109147866A

    公开(公告)日:2019-01-04

    申请号:CN201810690908.8

    申请日:2018-06-28

    IPC分类号: G16B20/00

    摘要: 本发明公开了一种基于采样与集成学习的蛋白质‑DNA绑定残基预测方法,包括:步骤1、特征提取与训练样本集构建;步骤2、采样与模型训练;步骤3、模型集成;步骤4、在线预测。该方法用于解决蛋白质‑DNA绑定残基预测问题中由于特征种类较少、类不平衡问题而导致预测精度偏低的缺点,具有预测精度高、泛化能力强的优点。

    结合蛋白质序列与结构信息的ATP绑定位点预测方法

    公开(公告)号:CN107273714A

    公开(公告)日:2017-10-20

    申请号:CN201710424110.4

    申请日:2017-06-07

    IPC分类号: G06F19/18 G06F19/12

    CPC分类号: G06F19/18 G06F19/12

    摘要: 本发明公开了一种结合蛋白质序列与结构信息的ATP绑定位点预测方法,首先读取蛋白质的序列与结构信息,从蛋白质序列与结构信息中抽取每个氨基酸残基的特征向量;使用随机下采样技术对非ATP绑定位点样本进行多次下采样,将每次下采样得到的非ATP绑定位点样本子集与ATP绑定位点样本集合合并后训练一个SVM子模型,得到多个SVM子模型;使用均值集成方法将上述多个SVM子模型进行集成,形成最终的预测模型;通过将任意待预测氨基酸残基的特征向量输入到最终的预测模型中进行判定该氨基酸残基是否为ATP绑定位点;最后使用PyMOL软件在三维空间中显示预测的ATP绑定位点。该方法不仅有效地降低了训练集的规模,而且提升了预测模型的可解释性与预测精度。

    基于回归森林模型的蛋白质序列二硫键连接模式的预测方法

    公开(公告)号:CN104063632B

    公开(公告)日:2017-09-01

    申请号:CN201410303084.6

    申请日:2014-06-27

    IPC分类号: G06F19/16

    摘要: 本发明公开一种基于回归森林模型的蛋白质序列二硫键连接模式的预测方法,包括以下步骤:步骤1、通过多视角特征提取和特征组合,得到蛋白质序列中每个半胱氨酸残基对的特征向量;步骤2、对于待预测的蛋白质序列信息和训练数据集合,生成待预测的蛋白质序列信息和训练数据集合中所有半胱氨酸残基对的特征向量,从而分别构成训练样本集合与待预测样本集合;步骤3、采用随机森林算法学习二硫键样本在特征空间中的分布规律,生成随机森林回归模型;步骤4、利用随机森林回归模型对待预测样本集合的特征向量进行预测,得到每个半胱氨酸残基对形成二硫键的倾向值,得分最高的二硫键连接模式即为最终预测得到的蛋白质序列中的二硫键连接模式。

    基于后处理学习的G蛋白偶联受体-药物交互作用预测方法

    公开(公告)号:CN104239751A

    公开(公告)日:2014-12-24

    申请号:CN201410453917.7

    申请日:2014-09-05

    IPC分类号: G06F19/18

    摘要: 本发明提供一种基于后处理学习的G蛋白偶联受体-药物交互作用预测方法,包括:基于训练数据集合中所有具有交互作用的G蛋白偶联受体-药物信息,构造药物关联矩阵DAM;将训练数据集合中所有G蛋白偶联受体-药物信息进行多视角特征表示,形成训练样本集合,然后使用随机森林算法将训练样本集合训练成G蛋白偶联受体-药物交互作用RF预测模型;对于每对待预测交互作用的G蛋白偶联受体-药物信息进行多视角特征表示,形成待预测样本集合;然后利用RF预测模型进行存在交互作用的概率预测,最终输出预测概率;最后根据输出概率进行后处理学习,最终直接得出该G蛋白偶联受体-药物信息是否存在交互作用的判断。

    基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法

    公开(公告)号:CN104077499A

    公开(公告)日:2014-10-01

    申请号:CN201410223569.4

    申请日:2014-05-25

    IPC分类号: G06F19/16

    摘要: 本发明提供一种基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法,包括以下步骤:基于训练集合中的蛋白质序列信息,从进化信息和二级结构视角抽取每个氨基酸残基的特征向量,得到正负样本集,所有绑定核苷酸的氨基酸残基提取为正样本集,所有未绑定核苷酸的氨基酸残基提取为负样本集;使用有监督的上采样学习方法对正负样本集中缺失的正样本信息进行补充;使用标准支持向量机算法(SVM),训练得到蛋白质-核苷酸绑定位点SVM预测模型;对于待预测的蛋白质序列信息,使用前述同样的方法抽取每个氨基酸残基的特征向量,输入预测模型,再利用阈值分割方法预测。利用本发明可提高预测精度并防止在不平衡数据集上可能出现的样本信息丢失问题。