- 专利标题: 基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法
-
申请号: CN202410853387.9申请日: 2024-06-28
-
公开(公告)号: CN118692563A公开(公告)日: 2024-09-24
- 发明人: 左云 , 房兴泽 , 万民权 , 章帮一 , 邓赵红
- 申请人: 江南大学
- 申请人地址: 江苏省无锡市滨湖区蠡湖大道1800号
- 专利权人: 江南大学
- 当前专利权人: 江南大学
- 当前专利权人地址: 江苏省无锡市滨湖区蠡湖大道1800号
- 代理机构: 哈尔滨市阳光惠远知识产权代理有限公司
- 代理商 林娟
- 主分类号: G16B20/30
- IPC分类号: G16B20/30 ; G16B40/20 ; G16B40/30 ; G06F18/213 ; G06F18/214 ; G06F18/23213 ; G06F18/2415 ; G06F18/2431 ; G06N3/0464 ; G06N3/048 ; G06N3/084 ; G06N5/045
摘要:
本发明属于人工智能算法应用‑生物序列识别领域,涉及基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法。首先,通过数据收集、整合与去冗余,优化特征空间,减少冗余信息,获得了一批存在显著类别不均衡问题的蛋白质序列作为输入数据。接着,使用多标签具体位置三联氨基酸倾向特征提取算法对蛋白质序列进行特征编码,获得输入特征矩阵。而后,采用ClusterCentroids框架辅以MinibatchKmeans算法计算多数类的聚类中心对不平衡数据集进行处理,确保模型在各种修饰位点预测上都能有很好的预测效果。本发明使用可通过说明书和已开源的代码实现预测多个赖氨酸翻译后修饰位点。