基于混合神经网络的蛋白质与配体结合残基与口袋识别方法

    公开(公告)号:CN116486919A

    公开(公告)日:2023-07-25

    申请号:CN202211331719.4

    申请日:2022-10-28

    Abstract: 一种基于混合神经网络的蛋白质与配体结合残基与口袋识别方法,通过提取待查询蛋白质的多个特征,将蛋白质的每个残基表示成三种表示,通过两种基于深度学习模型的基方法预测得到残基与配体的结合概率,再通过①平均两种基方法的预测分数得到高置信度的预测结果和②合并两种基方法的预测残基作为中置信度的预测结果,最后基于结合残基的空间坐标,通过空间聚类算法,将残基聚类得到最终的预测结合口袋。本发明从蛋白质的结构和序列两方面出发,采用两种集成策略,基于非欧式空间图网络、欧式空间的卷积网络和长短时记忆网络模型,通过空间聚类模块将预测的结合残基根据其空间位置分配到对应的结合口袋中,实现从蛋白质结构中学习蛋白质与配体的相互作用模式,并用于多种配体的特异性结合模式的学习和识别,显著提高蛋白质结合残基预测的准确性。

    基于机器学习的质谱图分子式计算方法

    公开(公告)号:CN113484400B

    公开(公告)日:2022-11-22

    申请号:CN202110747845.7

    申请日:2021-07-01

    Abstract: 本发明提供了一种基于机器学习的质谱图分子式计算方法,具体步骤包括:输入已知的质谱图数据;根据有机物分子式领域知识规律遍历搜索出一个峰所有的可能解;结合分子式的信息确认特征,对多组可能的特征进行排列组合;根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的召回率,确认训练特征和训练模型;遍历出所有的可能解并利用训练模型进行筛选。本发明对所有的遍历求解都依据有机物分子式的一般领域知识规律进行筛选,防止分类器过拟合,并对分类特征进行正则化和分块处理,增加了筛选精度;故本发明的基于机器学习的质谱图分子式计算方法具有快速、准确率高、对质谱图信息利用率高等优点。

    基于图卷积自编码器的冷冻电镜单颗粒图像聚类实现方法

    公开(公告)号:CN112465067B

    公开(公告)日:2022-07-15

    申请号:CN202011470196.2

    申请日:2020-12-15

    Inventor: 蔡嘉鸣 沈红斌

    Abstract: 一种基于图卷积自编码器的冷冻电镜单颗粒图像聚类实现方法,通过计算冷冻电镜单颗粒图片集的图片相似性矩阵,从而生成KNN网络;采用局部线性嵌入算法对每幅冷冻电镜单颗粒图像进行降维,将KNN网络和图片特征矩阵输入图卷积自编解码器中的编码器,将高维的结点特征嵌入到低维的隐藏层空间中,得到低维的隐藏层结点特征后通过图卷积自编解码器中的解码器进行K‑means聚类处理得到冷冻电镜单颗粒图像的聚类结果,最后对每个聚类簇的图像取平均即可得到最终的类平均图像。本发明使用网络化的相似性度量方法和局部线性嵌入提取方法,结合自编码器的隐藏层结点特征同时学习到网络的结构信息和结点本身的图像特征信息,使得聚类的鲁棒性得到提升,显著提高了图像质量。

    α螺旋跨膜蛋白质拓扑结构预测方法及装置

    公开(公告)号:CN110390995B

    公开(公告)日:2022-03-11

    申请号:CN201910585644.4

    申请日:2019-07-01

    Abstract: 一种α螺旋跨膜蛋白质拓扑结构预测方法,根据跨膜α螺旋TMH的定义组织训练集、验证集和测试集;对训练集、验证集和测试集中的序列提取位置特异性打分矩阵PSSM、HMM、水溶性、二级结构、扭转角和亲水指数特征;使用训练集训练基于整条序列的深度残差网络模型和基于滑动窗口的深度残差网络模型。将两种网络的输出取平均值集成后,采用动态阈值算法得到TMH区域;使用训练集训练支持向量机模型。模型的输入是其他区域non‑TMH和TMH区域的交界部分;输出是non‑TMH相对于细胞膜的位置。首先预测蛋白质中的TMH区域,然后预测non‑TMH的位置,结合两部分的预测结果,就可以得到蛋白质最终的拓扑结构。

    一种基于多任务深度学习的RBP结合位点预测方法

    公开(公告)号:CN114093419A

    公开(公告)日:2022-02-25

    申请号:CN202111393944.6

    申请日:2021-11-23

    Abstract: 本发明公开了一种基于多任务深度学习的RBP结合位点预测方法,解决了单任务学习在样本少时不能充分训练的问题,其技术方案要点是通过先构建适用于多任务学习模型的去耦合数据集,再接收输入的多种RBP结合位点的RNA序列样本并进行编码,使用特征共享网络和任务特异性网络建立多任务深度学习网络框架并进行交替训练,将编码后获得的特征矩阵输入特征共享网络,采用特征共享网络中的一维卷积神经算法和长短时记忆算法进行降维,采用任务特异性分类网络中的多层感知机对样本进行分类预测,得到分类概率结果,本发明的一种基于多任务深度学习的RBP结合位点预测方法,能弥补样本少的不足,提升分类算法的鲁棒性,提高预测精度。

    基于知识能量函数优化的膜蛋白三维结构预测方法

    公开(公告)号:CN113205855A

    公开(公告)日:2021-08-03

    申请号:CN202110636292.8

    申请日:2021-06-08

    Abstract: 一种基于知识能量函数优化的膜蛋白三维结构预测方法,分别根据输入序列的多序列比对结果结合统计知识得到对残基距离的约束、根据输入序列的二级结构预测结果结合蛋白质结构数据库PDB中的已知结构,构建结构片段查询库、根据输入序列的残基接触预测结果计算知识基础的能量函数;然后在能量函数和残基距离约束的条件下对初始结构迭代地进行片段替换并得到若干候选结构;最后对候选结构进行筛选得到最终预测膜蛋白三维结构。本发明基于从头预测方法,使用多序列比对(MSA)、二级结构预测、残基接触预测等多项技术,具有操作方便,准确度高等优点。

    基于注意力孪生网络的蛋白质结合位点预测方法

    公开(公告)号:CN112837747A

    公开(公告)日:2021-05-25

    申请号:CN202110041598.9

    申请日:2021-01-13

    Abstract: 一种基于注意力孪生网络的蛋白质结合位点预测方法,采用具有两层卷积层的神经网络对输入的进行特征提取,再根据提取到的特征估计绑定概率,得到预测的RNA序列绑定蛋白质的概率。本发明采用深度神经网络成对度量学习有效地增强捕获circRNA之间互信息的网络能力,并使用来自其他RBP的可用标记数据进行预训练,从而显著提高预测精确度。

    基于多目标优化的蛋白质序列设计实现方法

    公开(公告)号:CN111554346A

    公开(公告)日:2020-08-18

    申请号:CN202010353838.4

    申请日:2020-04-29

    Inventor: 沈红斌 李瑞祥

    Abstract: 一种基于多目标优化的蛋白质序列设计实现方法,通过融合目标蛋白的相似结构信息和基于局部结构的统计信息作为先验知识,并将现有离散蛋白质序列空间转换为连续的蛋白质序列空间,然后在其中通过多目标粒子群优化算法进行蛋白序列的迭代搜索并以排序最优的非支配解集实现蛋白质序列的优化。本发明通过集成结构、统计和物理力场三种信息引导蛋白质序列的搜索,得到的蛋白质序列无论是准确性和鲁棒性均由于其他方法,并且它的运行速度更快。本发明同样对设计的序列进行了生物实验验证,多个属于不同折叠类型的蛋白均能够正确表达,并且拥有与目标结构拟合度很高的二级结构比例和稳定的三级结构。

Patent Agency Ranking