大规模肝脏电子病历病变分类的属性并行约简Spark方法
摘要:
本发明提供了大规模肝脏电子病历病变分类的属性并行约简Spark方法,包括如下步骤:S10读取肝脏电子病历的数据集合并划分成多个肝脏病历数据子集发送到相应从节点上;S20对所述肝脏病历数据子集进行不一致处理,约简肝脏病历数据中不一致的数据,然后计算肝脏病历数据属性的等价类划分值;S30根据肝脏病历数据子集中数据对象计算属性重要度;S40计算出所述从节点中肝脏病历数据子集的属性重要度集合,进行聚合操作,得到肝脏病历数据的属性重要度集合;S50计算肝脏病历数据集的属性约简集合,并判断其是否满足约简要求。本发明的大规模肝脏电子病历病变分类的属性并行约简Spark方法,有效提高大规模肝脏电子病历属性并行约简的效率和精度。
0/0