-
公开(公告)号:CN118629486A
公开(公告)日:2024-09-10
申请号:CN202410752007.2
申请日:2024-06-12
申请人: 江南大学
IPC分类号: G16B15/00 , G16B20/00 , G16B40/00 , G06F18/214 , G06N3/0464 , G06N3/0499 , G06N3/084 , G06N3/096 , G06N3/0985
摘要: 本发明属于人工智能算法应用‑多标签亚细胞定位预测方法,涉及一种基于深度迁移学习的多标签亚细胞定位预测方法。过程如下:首先,对原始数据进行数据清洗以获得数据集1和数据集2,去除冗余信息,提高模型效率。接着,采用MDNDO和SMDU重采样算法对不平衡数据集进行处理,确保模型在各类别样本上都能获得良好性能。本发明基于AlexNet,重新修改了输出层的网络结构,充分利用了已有结构,捕获特征信息,最终在输出层输出预测结果。本发明进一步引入了SHAP算法,量化每个特征对模型预测结果的贡献度,帮助用户更好地理解模型的工作原理和决策依据。
-
公开(公告)号:CN118692563A
公开(公告)日:2024-09-24
申请号:CN202410853387.9
申请日:2024-06-28
申请人: 江南大学
IPC分类号: G16B20/30 , G16B40/20 , G16B40/30 , G06F18/213 , G06F18/214 , G06F18/23213 , G06F18/2415 , G06F18/2431 , G06N3/0464 , G06N3/048 , G06N3/084 , G06N5/045
摘要: 本发明属于人工智能算法应用‑生物序列识别领域,涉及基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法。首先,通过数据收集、整合与去冗余,优化特征空间,减少冗余信息,获得了一批存在显著类别不均衡问题的蛋白质序列作为输入数据。接着,使用多标签具体位置三联氨基酸倾向特征提取算法对蛋白质序列进行特征编码,获得输入特征矩阵。而后,采用ClusterCentroids框架辅以MinibatchKmeans算法计算多数类的聚类中心对不平衡数据集进行处理,确保模型在各种修饰位点预测上都能有很好的预测效果。本发明使用可通过说明书和已开源的代码实现预测多个赖氨酸翻译后修饰位点。
-