一种基于互信息的特征筛选和关联规则多标记分类算法

    公开(公告)号:CN113807456A

    公开(公告)日:2021-12-17

    申请号:CN202111131495.8

    申请日:2021-09-26

    IPC分类号: G06K9/62

    摘要: 本发明公开了一种基于互信息的特征筛选和关联规则多标记分类算法,包括:S1、对特征集进行归一化处理;S2、使用互信息计算筛选特征值;S3、使用DPC算法对标签集进行聚类,生成多个数据簇;S4、使用关联规则算法得出每个簇内的频繁项集并生成关联规则,选择其中多对一和一对一的关联规则;S5、使用每个簇内的关联规则更新每一条数据的标签集;S6、使用ML‑KNN多标记分类算法进行训练和预测,得到新的分类模型。本发明将特征值筛选和关联规则更新标签集结合在一起,即考虑了特征与标签之间的相关性,使之能减少特征冗余和训练时间,又考虑到了标签之间的关联关系。本发明选取一对一和多对一的关联规则能大大减少关联规则的数量,达到较好的泛化效果。

    一种基于互信息的特征筛选和关联规则多标记分类方法

    公开(公告)号:CN113807456B

    公开(公告)日:2024-04-09

    申请号:CN202111131495.8

    申请日:2021-09-26

    IPC分类号: G06F18/2415

    摘要: 本发明公开了一种基于互信息的特征筛选和关联规则多标记分类方法,包括:S1、对特征集进行归一化处理;S2、使用互信息计算筛选特征值;S3、使用DPC算法对标签集进行聚类,生成多个数据簇;S4、使用关联规则算法得出每个簇内的频繁项集并生成关联规则,选择其中多对一和一对一的关联规则;S5、使用每个簇内的关联规则更新每一条数据的标签集;S6、使用ML‑KNN多标记分类算法进行训练和预测,得到新的分类模型。本发明将特征值筛选和关联规则更新标签集结合在一起,即考虑了特征与标签之间的相关性,使之能减少特征冗余和训练时间,又考虑到了标签之间的关联关系。本发明选取一对一和多对一的关联规则能大大减少关联规则的数量,达到较好的泛化效果。