Invention Publication
- Patent Title: 一种基于数据分区混合采样的不平衡集成分类方法
-
Application No.: CN201911339988.3Application Date: 2019-12-23
-
Publication No.: CN111091201APublication Date: 2020-05-01
- Inventor: 高欣 , 任昺 , 何杨 , 李康生 , 井潇 , 纪维佳 , 查森 , 王锋
- Applicant: 北京邮电大学
- Applicant Address: 北京市海淀区西土城路10号
- Assignee: 北京邮电大学
- Current Assignee: 北京邮电大学
- Current Assignee Address: 北京市海淀区西土城路10号
- Main IPC: G06N20/20
- IPC: G06N20/20 ; G06K9/62

Abstract:
本发明实施例提出了一种基于数据分区混合采样的不平衡集成分类方法,包括:根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。
Information query