一种基于机器学习的非平衡数据集的处理方法和装置
Abstract:
本发明实施例公开了一种基于机器学习的非平衡数据集的处理方法和装置,涉及数据处理的技术领域,能够解决SMOTE算法合成“人造”样本过程中造成的分布边缘化问题。该处理方法包括:一种基于机器学习的非平衡数据集的处理方法,包括:根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本,其中,所述多数类图像样本和所述少数类图像样本均包含有N维属性,所述中心样本是由多个所述多数类图像样本和多个所述少数类图像样本每个维度的属性的平均值组成,N≥1;在所述中心样本与至少一个所述少数类图像样本之间进行随机线性插值,生成新增少数类样本,得到利用所述新增少数类样本更新后的第二样本集合。
Public/Granted literature
Patent Agency Ranking
0/0