基于有偏随机森林模型的医疗不平衡数据分类方法
摘要:
本发明公开了一种基于有偏随机森林模型的医疗不平衡数据分类方法,主要解决现有技术中分类模型对少数类识别精度不够、分类效率低及鲁棒性差的问题。其实现方案是:对原始医疗数据集依次进行混乱格式、缺失值填充、归一化的预处理;对预处理后的数据集进行K均值聚类欠采样,构建平衡数据集;利用投票法对两个子随机森林中的决策树组合,构建有偏随机森林分类模型;利用预处理后的数据集和K均值欠采样后的平衡数据集对有偏随机森林分类模型进行训练;将测试数据输入训练好的模型输出分类结果。本发明通过在训练阶段将采样策略应用到随机森林构建过程中,可提升不平衡医疗数据集中少数类的识别精度,提高分类效率,可用于为医疗疾病诊断提供依据。
0/0