用于大数据电子病历约简的多粒度属性权重Spark方法
摘要:
本发明公开了一种用于大数据电子病历约简的多粒度属性权重Spark方法。该方法首先在Hadoop分布式文件系统中将大数据电子病历集划分成不同的条件属性作业和决策属性作业;然后设计基于改进MapReduce作业协同结构的Spark模型,将电子病历条件属性作业并行化处理;其次在Hadoop分布式文件系统中构建多粒度属性权重Spark方法用于电子病历属性快速约简,从而求得大数据电子病历属性约简最优特征集;最后将大数据电子病历属性约简特征集R1,R2,…,Rn存储至Hadoop分布文件系统中,为相关疾病的临床诊断和治疗提供重要的智能诊断知识依据。
0/0