基于序列依赖频率矩阵的生物序列进化信息提取方法

    公开(公告)号:CN106529212B

    公开(公告)日:2019-01-25

    申请号:CN201610911060.8

    申请日:2016-10-19

    IPC分类号: G16B30/00

    摘要: 本发明提供了种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;然后统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到如式(1)所示的序列依赖频率矩阵SDFM。本发明的技术方案考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征,使得统计的概率分布信息包含了序列位点依赖关系信息。

    蛋白质远程同源性检测方法及装置

    公开(公告)号:CN104636636B

    公开(公告)日:2018-01-05

    申请号:CN201510057034.9

    申请日:2015-02-02

    IPC分类号: G06F19/18 G06F19/22

    摘要: 本发明涉及蛋白质远程同源性检测方法及装置,包括训练过程和检测过程;训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序,并在数据库中进行检索,每一个检索结果对应一个同源相似性评分,将所有检索结果降序排序,并组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练,得到排序模型;检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量,输入训练好的排序模型进行排序,得到排序结果,根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量,然后采用排序学习方法进行训练得到排序模型,从而可以有效提高检测的准确性和稳定性。

    预测蛋白质序列的远同源性关系的神经网络结构及方法

    公开(公告)号:CN107330512A

    公开(公告)日:2017-11-07

    申请号:CN201710458184.X

    申请日:2017-06-16

    发明人: 刘滨 王晓龙

    IPC分类号: G06N3/04 G06F19/18

    摘要: 本发明公开一种预测蛋白质序列的远同源性关系的神经网络结构及方法,神经网络结构包括:依次连接的输入层、LSTM层、随时间分布的全连接层和输出层,输入层用于获取输入的原始的蛋白质序列,将原始的蛋白质序列转换为神经网络能够处理的输入矩阵;LSTM层用于捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出当前输入子序列的特征;随时间分布的全连接层对LSTM层中的不同memory cell的输出以不同的权重,汇总依赖关系信息;输出层根据随时间分布的全连接层在每个时间步上输出连接而成的向量,预测蛋白质序列的远同源性关系。本发明无需人工构建特征和生成序列谱,节省了大量时间,并提高了预测的准确性。

    基于序列依赖频率矩阵的生物序列进化信息提取方法及其应用

    公开(公告)号:CN106529212A

    公开(公告)日:2017-03-22

    申请号:CN201610911060.8

    申请日:2016-10-19

    IPC分类号: G06F19/22

    摘要: 本发明提供了一种基于序列依赖频率矩阵的生物序列进化信息提取方法,其采用序列依赖频率矩阵SDFM进行生物序列进化信息提取,所述SDFM采用以下步骤获得:对于任意的生物序列,首先利用序列比对工具搜索对应的生物序列数据库,生成对应的多序列比对MSA;然后统计在多序列比对MSA中每个位点生物序列子串出现的频率,得到如式(1)所示的序列依赖频率矩阵SDFM。本发明的技术方案考虑到了生物序列中相邻位点的依赖关系,能够从多序列比对中提取出更多、更准确的功能、结构等生物序列进化特征,使得统计的概率分布信息包含了序列位点依赖关系信息。

    预测蛋白质序列的远同源性关系的系统及方法

    公开(公告)号:CN107330512B

    公开(公告)日:2020-06-16

    申请号:CN201710458184.X

    申请日:2017-06-16

    发明人: 刘滨 王晓龙

    IPC分类号: G06N3/04 G16B20/00

    摘要: 本发明公开一种预测蛋白质序列的远同源性关系的系统及方法,神经网络结构包括:依次连接的输入层、LSTM层、随时间分布的全连接层和输出层,输入层用于获取输入的原始的蛋白质序列,将原始的蛋白质序列转换为神经网络能够处理的输入矩阵;LSTM层用于捕捉蛋白质序列中子序列间的依赖关系,在每个时间步上输出当前输入子序列的特征;随时间分布的全连接层对LSTM层中的不同memory cell的输出以不同的权重,汇总依赖关系信息;输出层根据随时间分布的全连接层在每个时间步上输出连接而成的向量,预测蛋白质序列的远同源性关系。本发明无需人工构建特征和生成序列谱,节省了大量时间,并提高了预测的准确性。

    一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法

    公开(公告)号:CN102043910A

    公开(公告)日:2011-05-04

    申请号:CN201010600321.7

    申请日:2010-12-22

    IPC分类号: G06F19/16 G06F19/18 G06F19/22

    摘要: 一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法,涉及一种蛋白质远程同源性检测和折叠识别方法。本发明为了解决现有的蛋白质远程同源性检测和折叠识别方法中,二进制谱无法找到最优阈值,无法区分氨基酸出现频率的差别的问题。具体步骤:一、运行PSI-BLAST,输入测试蛋白质序列进行多序列比对,计算氨基酸i的伪计数;二、生成频率谱;三、将频率谱转化为Top-n-gram;四、获得测试蛋白质序列对应的潜在语义表达向量;五、将测试蛋白质序列对应的潜在语义表达向量输入SVM分类器进行分类,得到预测结果。应用于蛋白质同源性检测和折叠识别领域。

    蛋白质远程同源性检测方法及装置

    公开(公告)号:CN104636636A

    公开(公告)日:2015-05-20

    申请号:CN201510057034.9

    申请日:2015-02-02

    IPC分类号: G06F19/18 G06F19/22

    摘要: 本发明涉及蛋白质远程同源性检测方法及装置,包括训练过程和检测过程;训练过程包括将样本蛋白质作为查询序列输入一组基于排序策略的蛋白质同源性检测的基排序,并在数据库中进行检索,每一个检索结果对应一个同源相似性评分,将所有检索结果降序排序,并组合成特征向量,将得到的特征向量输入基于排序学习的方法中进行训练,得到排序模型;检测过程包括将目标蛋白质按照类似训练过程的方式得到特征向量,输入训练好的排序模型进行排序,得到排序结果,根据排序结果确定目标蛋白质的远程同源性检测结果。本发明通过组合多个基排序的检测结果作为特征向量,然后采用排序学习方法进行训练得到排序模型,从而可以有效提高检测的准确性和稳定性。

    一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法

    公开(公告)号:CN102043910B

    公开(公告)日:2012-12-12

    申请号:CN201010600321.7

    申请日:2010-12-22

    IPC分类号: G06F19/16 G06F19/18 G06F19/22

    摘要: 一种基于Top-n-gram的蛋白质远程同源性检测和折叠识别方法,涉及一种蛋白质远程同源性检测和折叠识别方法。本发明为了解决现有的蛋白质远程同源性检测和折叠识别方法中,二进制谱无法找到最优阈值,无法区分氨基酸出现频率的差别的问题。具体步骤:一、运行PSI-BLAST,输入测试蛋白质序列进行多序列比对,计算氨基酸i的伪计数;二、生成频率谱;三、将频率谱转化为Top-n-gram;四、获得测试蛋白质序列对应的潜在语义表达向量;五、将测试蛋白质序列对应的潜在语义表达向量输入SVM分类器进行分类,得到预测结果。应用于蛋白质同源性检测和折叠识别领域。