一种公共卫生数据获取及处理系统

    公开(公告)号:CN115511683A

    公开(公告)日:2022-12-23

    申请号:CN202211165509.2

    申请日:2022-09-23

    IPC分类号: G06Q50/26 G06K9/62 G16H10/00

    摘要: 本发明公开了一种公共卫生数据获取及处理系统,包括1、以下阶段:数据准备阶段、特征工程阶段以及模型评估与评价阶段,所述数据准备阶段包括以下步骤:S1,选择以糖尿病作为项目实例,启动项目;S2,选择业务信息系统及数据资源中心获取糖尿病随访场景的业务数据;S3,对已获得的已明确数据可靠性的数据赋予可靠性标签;S4,收集可靠性标签并归类,将可靠性数据单独归类,与未处理数据分离;S5,筛选后的数据提取部分可靠性标签;S6,提取目标数据中的数据类型、数据结构以及数据形式,并检查数据缺失值、异常值以及重复值;具有可以对数据进行分类描述,减少后续分析时间的好处。

    一种基于公共卫生数据数据获取的特征转化提取系统

    公开(公告)号:CN115510970A

    公开(公告)日:2022-12-23

    申请号:CN202211165935.6

    申请日:2022-09-23

    IPC分类号: G06K9/62 G06N20/00 G06Q50/26

    摘要: 本发明公开了一种基于公共卫生数据数据获取的特征转化提取系统,包括以下阶段:数据准备阶段、特征工程阶段以及模型评估与评价阶段,所述特征工程阶段包括以下步骤:S1,将糖尿病随访场景数据分类好的数据进行预处理;S2,首先明确部分数据中存在大量缺失值的特征,明确该特征不会对可靠性判断结果影响的前提下,将其剔除;S3,根据输入数据的缺失值对部分机器学习算法的敏感,将根据不同的机器学习算法对缺失值进行处理;具有让数据降维化,简化数据模型,提升模型的可解释性,缩短模型训练所需时间,降低了模型过拟合风险,避免了维度灾难的好处。