发明公开
- 专利标题: 基于有偏随机森林模型的医疗不平衡数据分类方法
-
申请号: CN202310129885.4申请日: 2023-02-17
-
公开(公告)号: CN116072302A公开(公告)日: 2023-05-05
- 发明人: 杜建超 , 赵梦楠 , 王燕宁 , 石磊 , 陈天艳 , 周云
- 申请人: 西安电子科技大学
- 申请人地址: 陕西省西安市太白南路2号
- 专利权人: 西安电子科技大学
- 当前专利权人: 西安电子科技大学
- 当前专利权人地址: 陕西省西安市太白南路2号
- 代理机构: 陕西电子工业专利中心
- 代理商 王品华
- 主分类号: G16H50/70
- IPC分类号: G16H50/70 ; G16H10/60 ; G06F18/23213 ; G06F18/214 ; G06F18/2431 ; G06N5/01 ; G06N20/20
摘要:
本发明公开了一种基于有偏随机森林模型的医疗不平衡数据分类方法,主要解决现有技术中分类模型对少数类识别精度不够、分类效率低及鲁棒性差的问题。其实现方案是:对原始医疗数据集依次进行混乱格式、缺失值填充、归一化的预处理;对预处理后的数据集进行K均值聚类欠采样,构建平衡数据集;利用投票法对两个子随机森林中的决策树组合,构建有偏随机森林分类模型;利用预处理后的数据集和K均值欠采样后的平衡数据集对有偏随机森林分类模型进行训练;将测试数据输入训练好的模型输出分类结果。本发明通过在训练阶段将采样策略应用到随机森林构建过程中,可提升不平衡医疗数据集中少数类的识别精度,提高分类效率,可用于为医疗疾病诊断提供依据。