一种基于层次聚类的过采样方法及系统

    公开(公告)号:CN109255380A

    公开(公告)日:2019-01-22

    申请号:CN201811011756.0

    申请日:2018-08-31

    Abstract: 本发明涉及数据处理技术领域,提供了一种基于层次聚类的过采样方法及系统,该方法包括:对少数类样本进行聚类;对聚类得到的类簇进行连接;为每个少数类的类簇及类簇的连接部分分配权重;根据分配的权重确定每个少数类的类簇及连接部分被选取的概率,并根据所述概率在类簇和类簇的连接部分根据种子数据生成新数据。本发明在聚类以及生成新样本时采取了多种措施使得生成的数据在一定忍耐限度内能够满足尽量不产生和扩大噪声的要求,并且在识别子概念的同时充分考虑了类内不平衡的处理,从而使得本发明的方法对于少数类中的子概念能够提供足够的关注,达到提升分类器学习效果的目的。

Patent Agency Ranking