基于多模态线性规划的小样本分类方法

    公开(公告)号:CN117689930A

    公开(公告)日:2024-03-12

    申请号:CN202311492992.X

    申请日:2023-11-10

    发明人: 潘美虹 沈红斌

    摘要: 一种基于多模态线性规划的小样本分类方法,通过构造并训练用来预测无标签样本的语义特征的视觉到语义的自编码器,将无标签样本的聚类中心映射到语义空间后,通过线性规划模型在语义空间中使用类别语义特征作为基准语义特征,为无标签样本聚类中心分配标签以匹配初始原型和聚类中心并得到修正后的类别原型,经多模态特征组合后基于交替最小二乘(ALS)的改进优化策略对来支撑集样本以及查询集样本的特征向量和权重矩阵交替优化,迭代至预测分数的相对残差不再变化,得到减轻特征表示偏差以及分类器权重偏差的结果。本发明通过自编码器来预测查询样本的语义特征,解决支撑样本和查询样本的信息不平衡问题;通过多模态的特征修正机制减小类别表征的偏差;采用交替优化的方式优化特征表示和分类器权重。

    一种蛋白质氨基酸关联矩阵预测方法

    公开(公告)号:CN109637580B

    公开(公告)日:2023-06-13

    申请号:CN201811484434.8

    申请日:2018-12-06

    IPC分类号: G16B15/20

    摘要: 一种蛋白质氨基酸关联矩阵预测方法,包括:S1、组建蛋白质氨基酸关联图预测训练数据集;S2、在训练集中从蛋白质氨基酸序列中提取6种特征,并将每一个序列的6种特征合并,同时生成标签文件和权重掩模矩阵;S3、在改进的残差网络的基础上使用合并的特征、标签文件和权重掩模矩阵进行训练;S4、根据测试序列搜索同源序列列表,并得到这些同源序列的合并特征、标签文件、和权重掩模矩阵;S5、在步骤S3中得到的模型的基础上,使用步骤S4中得到的同源序列的合并特征、标签文件和权重掩模矩阵进行进一步训练;S6、根据测试氨基酸序列得到测试序列的合并特征,然后输入步骤S5中得到的预测模型进行预测。

    基于多目标优化的蛋白质序列设计实现方法

    公开(公告)号:CN111554346B

    公开(公告)日:2023-05-23

    申请号:CN202010353838.4

    申请日:2020-04-29

    发明人: 沈红斌 李瑞祥

    IPC分类号: G16B15/20 G16B40/00 G06N3/006

    摘要: 一种基于多目标优化的蛋白质序列设计实现方法,通过融合目标蛋白的相似结构信息和基于局部结构的统计信息作为先验知识,并将现有离散蛋白质序列空间转换为连续的蛋白质序列空间,然后在其中通过多目标粒子群优化算法进行蛋白序列的迭代搜索并以排序最优的非支配解集实现蛋白质序列的优化。本发明通过集成结构、统计和物理力场三种信息引导蛋白质序列的搜索,得到的蛋白质序列无论是准确性和鲁棒性均由于其他方法,并且它的运行速度更快。本发明同样对设计的序列进行了生物实验验证,多个属于不同折叠类型的蛋白均能够正确表达,并且拥有与目标结构拟合度很高的二级结构比例和稳定的三级结构。

    基于图网络掩膜节点分类的固定骨架的蛋白质序列设计方法

    公开(公告)号:CN114841245A

    公开(公告)日:2022-08-02

    申请号:CN202210352551.9

    申请日:2022-04-05

    发明人: 刘炎 沈红斌 袁野

    摘要: 一种基于图网络掩膜节点分类的固定骨架的蛋白质序列设计方法,在离线阶段,通过构建样本的蛋白质最近临图作为训练集,对图神经网络进行训练;在在线阶段,通过训练后的图神经网络对缺失序列的蛋白质结构的最临近图进行处理,得到缺失的氨基酸类别概率,然后对类别概率进行采样得到预测的缺失的氨基酸序列。本发明通过增加了更多的结构约束,在蛋白质图中相连的氨基酸对加入了距离和相对角度特征以及每个氨基酸的二面角特征,然后建立近邻图,实现了基于Transformer多头注意力机制的更高效的图网络并探究了最优的氨基酸mask比例。

    基于机器学习的质谱图分子式计算方法

    公开(公告)号:CN113484400A

    公开(公告)日:2021-10-08

    申请号:CN202110747845.7

    申请日:2021-07-01

    IPC分类号: G01N27/62 G16C20/50 G16C20/70

    摘要: 本发明提供了一种基于机器学习的质谱图分子式计算方法,具体步骤包括:输入已知的质谱图数据;根据有机物分子式领域知识规律遍历搜索出一个峰所有的可能解;结合分子式的信息确认特征,对多组可能的特征进行排列组合;根据已知信息确认正确解,利用逻辑回归进行训练,比对不同特征组合的召回率,确认训练特征和训练模型;遍历出所有的可能解并利用训练模型进行筛选。本发明对所有的遍历求解都依据有机物分子式的一般领域知识规律进行筛选,防止分类器过拟合,并对分类特征进行正则化和分块处理,增加了筛选精度;故本发明的基于机器学习的质谱图分子式计算方法具有快速、准确率高、对质谱图信息利用率高等优点。

    基于多目标分解优化策略的蛋白质结构优化方法

    公开(公告)号:CN113035268A

    公开(公告)日:2021-06-25

    申请号:CN202110380246.6

    申请日:2021-04-09

    发明人: 周成鹏 沈红斌

    IPC分类号: G16B5/00 G16B15/00 G06N3/00

    摘要: 一种基于多目标分解优化策略的蛋白质结构优化方法,首先将待优化的结构通过随机扰动生成不同的构象作为目标粒子,即每一个粒子都对应一个构象,并为每一个粒子分配一个独有的权重向量,然后利用粒子群算法根据每个粒子独有的权重向量更新其位置和速度,每次更新时筛选出非支配粒子放入解集中,当达到最大迭代次数后得到的非支配粒子集合即为最终解集,最后使用边际效用方法对最终解集中的结构进行排序并将边际效用值最小的构象作为优化后的蛋白质结构。本发明采用多种能量函数缓解单个能量函数带来的偏差,并运用粒子群算法在蛋白质结构空间中进行搜索,采用分解策略将多目标问题分解为一系列单目标子问题,避免了搜索过程中粒子因优化方向不明确所引起的振荡问题,使得优化效果更加稳定。

    基于图卷积自编码器的冷冻电镜单颗粒图像聚类实现方法

    公开(公告)号:CN112465067A

    公开(公告)日:2021-03-09

    申请号:CN202011470196.2

    申请日:2020-12-15

    发明人: 蔡嘉鸣 沈红斌

    摘要: 一种基于图卷积自编码器的冷冻电镜单颗粒图像聚类实现方法,通过计算冷冻电镜单颗粒图片集的图片相似性矩阵,从而生成KNN网络;采用局部线性嵌入算法对每幅冷冻电镜单颗粒图像进行降维,将KNN网络和图片特征矩阵输入图卷积自编解码器中的编码器,将高维的结点特征嵌入到低维的隐藏层空间中,得到低维的隐藏层结点特征后通过图卷积自编解码器中的解码器进行K‑means聚类处理得到冷冻电镜单颗粒图像的聚类结果,最后对每个聚类簇的图像取平均即可得到最终的类平均图像。本发明使用网络化的相似性度量方法和局部线性嵌入提取方法,结合自编码器的隐藏层结点特征同时学习到网络的结构信息和结点本身的图像特征信息,使得聚类的鲁棒性得到提升,显著提高了图像质量。

    一种基于图像分割及边缘检测的脂肪细胞自动计数方法

    公开(公告)号:CN107316077B

    公开(公告)日:2020-09-08

    申请号:CN201710472812.X

    申请日:2017-06-21

    摘要: 本发明涉及一种基于图像分割及边缘检测的脂肪细胞自动计数方法。通过对脂肪图像进行阈值分割和边缘检测,提取物体与背景在灰度上的差异,把图像分为具有不同灰度级的目标区域和背景区域,图像的边缘就是图像灰度发生空间突变的像素的集合,先确定图像中的边缘像素,将它们连接在一起构成边界。提取出脂肪细胞边缘;对脂肪细胞边缘进行形态学处理和滤波操作,并且通过分水岭算法进行再分割,能够将欠染色的细胞边缘识别并加以分割,提高了细胞计数的准确性;对图像进行连通区域分析,能够统计细胞的数量,面积等数据,极大地提高了脂肪细胞计数的效率;对图像进行上色处理和标注,方便后续人工进行对比校正,保证较高的计数准确率和效率。

    基于代价敏感LSTM网络的蛋白质域检测方法及系统

    公开(公告)号:CN106295242B

    公开(公告)日:2019-03-26

    申请号:CN201610629963.7

    申请日:2016-08-04

    发明人: 沈红斌 陈晓

    IPC分类号: G16B15/00 G16B50/00

    摘要: 一种基于代价敏感LSTM网络的蛋白质域检测方法,采用双向LSTM网络作为蛋白质域检测的模型;提出一个代价敏感的损失函数,为正负样本的错分赋予不同的代价;同时提出一种更新损失函数中代价权重的方法,对于任意给定的初始值,能够在网络训练过程中自适应地更新代价权重。采用平滑、删除、合并操作对模型的原始输出进行后处理。本发明优点包括:检测模型采用双向LSTM网络,对蛋白质序列的长程相关性进行有效建模;使用代价敏感的损失函数训练模型,适应蛋白质域数据集不平衡的特征;引入代价权重自适应更新方法,适用于任何数据集;对模型输出进行后处理,减少假阳性结果。

    基于区域信息和边缘信息的水平集图像分割方法及其系统

    公开(公告)号:CN106056611B

    公开(公告)日:2019-01-11

    申请号:CN201610390119.3

    申请日:2016-06-03

    发明人: 沈红斌 智绪浩

    IPC分类号: G06T7/11 G06T7/13

    摘要: 一种基于区域信息和边缘信息的水平集图像分割方法及其系统,根据图像的区域信息和边缘信息,构建能量泛函并初始化水平集函数,得到初始水平集函数;采用梯度下降流方法得到水平集函数演化方程,并基于能量泛函依次进行粗分割阶段和平滑阶段的水平集函数演化处理,进行图像的大致分割和精确定位,得到分割后的图像;所述的系统包括:初始化模块、水平集函数演化模块、颜色方差计算模块和分割结果输出模块;本发明减少了水平集函数的迭代次数,提高了水平集对彩色图的分割定位能力。