一种基于数据分区混合采样的不平衡集成分类方法
Abstract:
本发明实施例提出了一种基于数据分区混合采样的不平衡集成分类方法,包括:根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。
Patent Agency Ranking
0/0