Invention Publication
- Patent Title: 基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法
-
Application No.: CN202410853387.9Application Date: 2024-06-28
-
Publication No.: CN118692563APublication Date: 2024-09-24
- Inventor: 左云 , 房兴泽 , 万民权 , 章帮一 , 邓赵红
- Applicant: 江南大学
- Applicant Address: 江苏省无锡市滨湖区蠡湖大道1800号
- Assignee: 江南大学
- Current Assignee: 江南大学
- Current Assignee Address: 江苏省无锡市滨湖区蠡湖大道1800号
- Agency: 哈尔滨市阳光惠远知识产权代理有限公司
- Agent 林娟
- Main IPC: G16B20/30
- IPC: G16B20/30 ; G16B40/20 ; G16B40/30 ; G06F18/213 ; G06F18/214 ; G06F18/23213 ; G06F18/2415 ; G06F18/2431 ; G06N3/0464 ; G06N3/048 ; G06N3/084 ; G06N5/045

Abstract:
本发明属于人工智能算法应用‑生物序列识别领域,涉及基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法。首先,通过数据收集、整合与去冗余,优化特征空间,减少冗余信息,获得了一批存在显著类别不均衡问题的蛋白质序列作为输入数据。接着,使用多标签具体位置三联氨基酸倾向特征提取算法对蛋白质序列进行特征编码,获得输入特征矩阵。而后,采用ClusterCentroids框架辅以MinibatchKmeans算法计算多数类的聚类中心对不平衡数据集进行处理,确保模型在各种修饰位点预测上都能有很好的预测效果。本发明使用可通过说明书和已开源的代码实现预测多个赖氨酸翻译后修饰位点。
Information query