基于多源数据联合检测的数据集异常识别方法

    公开(公告)号:CN117556363B

    公开(公告)日:2024-04-09

    申请号:CN202410038183.X

    申请日:2024-01-11

    摘要: 本发明涉及数据质量技术领域,具体涉及了一种基于多源数据联合检测的数据集异常识别方法。包括以下步骤:S100:分别获取来自不同参与方的文本类数据的数据集;S200:识别并提取出不同参与方的数据集中具有交集的部分,作为识别数据集,分别对不同参与方的识别数据集进行预处理后,将识别数据集中的各项文本数据均转换为特征向量300:将不同参与方的识别数据集中的特征向量进行比对,各个参与方的识别数据中文本数据不一致的部分,作为异常数据,并对异常数据进行定位;S400:分别识别异常数据在其所述识别数据集中的数据归属中的数据属性,根据数据属性选择检测方式,检测各参与方的异常数据在其所述数据集的数据归属中是否为正常数据或是异常数据。

    面向深度学习的医学影像分类模型公平性评估方法及装置

    公开(公告)号:CN117315379A

    公开(公告)日:2023-12-29

    申请号:CN202311612473.2

    申请日:2023-11-29

    摘要: 本发明公开了一种面向深度学习的医学影像分类模型公平性评估方法及装置,该方法包括:采集患者X光影像,所述患者X光影像中包括一个或多个标签;构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;利用所述训练数据集训练得到基于深度学习的患病预测模型;利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;根据所述测试结果确定模型的公平性。利用本发明方案,可以有效地评估模型的公平性。

    一种图谱数据的处理方法、装置以及存储介质

    公开(公告)号:CN115757573B

    公开(公告)日:2023-11-14

    申请号:CN202211384184.7

    申请日:2022-11-07

    发明人: 丁洪鑫 汪榕 张瑶

    IPC分类号: G06F16/25 G06F16/22 G06F16/23

    摘要: 本申请公开了一种图谱数据的处理方法,包括:获取多源异构数据,对多源异构数据的类型进行判断;对多源异构数据中的结构化数据,根据预设的关联规则,对结构化数据中的字段直接进行关联,形成关联关系;对多源异构数据中的非结构化数据,判断其是否有元数据;若有元数据,则提取元数据,并使用元数据与其它数据集进行关联,形成关联关系;若没有元数据,则为非结构化数据配置元数据,并使用配置的元数据与其它数据集进行关联,形成关联关系;对关联关系的属性进行定义,并根据定义后的关联关系对多源异构数据进行结构化;以定义后的关联关系为连接,生成新的关系型数据,并将关系型数据导入图数据库中。

    面向深度学习的医学影像分类模型公平性评估方法及装置

    公开(公告)号:CN117315379B

    公开(公告)日:2024-03-12

    申请号:CN202311612473.2

    申请日:2023-11-29

    摘要: 本发明公开了一种面向深度学习的医学影像分类模型公平性评估方法及装置,该方法包括:采集患者X光影像,所述患者X光影像中包括一个或多个标签;构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;利用所述训练数据集训练得到基于深度学习的患病预测模型;利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;根据所述测试结果确定模型的公平性。利用本发明方案,可以有效地评估模型的公平性。

    一种健康医疗标准体系构建方法、系统及装置

    公开(公告)号:CN116936124A

    公开(公告)日:2023-10-24

    申请号:CN202311199193.3

    申请日:2023-09-18

    IPC分类号: G16H70/20 G16H50/70

    摘要: 本申请公开了一种健康医疗标准体系构建方法、系统及装置,用于对健康医疗标准数据进行有效管理。本申请方法包括:确定标准关键词,并根据标准关键词获取关于健康医疗领域的标准文献数据;将标准文献数据输入向量数据库中进行数据清洗,去除重复和无关数据,得到清洗后的标准文献数据,并将标准文献数据存储在向量数据库中,构建健康医疗标准二维表;将健康医疗标准二维表存储至标准体系数据库中;将所述标准体系数据库中的标准文献数据输入预先构建好的参考模型中进行定位标记,得到标准体系模型,所述参考模型为三维立体模型,且所述参考模型以业务领域为X轴,标准类别为Y轴,标准级别为Z轴;基于所述标准体系模型构建健康医疗标准体系。

    一种应用于政务领域的数据质量评估方法及相关装置

    公开(公告)号:CN115829371A

    公开(公告)日:2023-03-21

    申请号:CN202211387954.3

    申请日:2022-11-07

    IPC分类号: G06Q10/0639 G06Q50/26

    摘要: 本申请公开了一种应用于政务领域的数据质量评估方法及相关装置,用于用于使政务领域的数据质量评估可量化、可落地且可迭代。本申请方法包括:根据政务领域的业务场景确定数据质量评价指标;基于数据质量评价指标确定指标约束规则;根据数据质量评价指标及指标约束规则构建数据质量评估算法模型;获取待评估的政务领域的目标数据集,并确定目标数据集对应的目标数据质量评价指标及目标指标约束规则,政务领域的目标数据集为目标职能部门在办理目标业务及进行目标决策时产生的数据;确定目标指标约束规则的目标权重值;将目标指标约束规则、目标权重值及目标数据集输入数据质量评估算法模型,获取目标数据集的数据质量评估结果。

    一种管理数据与API的方法、系统及存储介质

    公开(公告)号:CN117390132A

    公开(公告)日:2024-01-12

    申请号:CN202311247296.2

    申请日:2023-09-25

    IPC分类号: G06F16/33 G06F16/31 G06F16/35

    摘要: 本申请公开了一种管理数据与API的方法、系统及存储介质,用于将数据管理和API管理整合在一个管理平台,提高安全质量和使用效率。本申请管理数据与API的方法包括:使用数据分析技术对获取的多源异构数据进行类型识别,获得识别结果再进行抽取,获得抽取结果;判断所述多源异构数据的存储类型与预先定义的数据存储类型是否相同;将所述多源异构数据的存储类型转化为预先定义的数据存储类型;将转化后的数据存入所述数据库并进行内容识别;识别后进行合并、移除或补全;将API分成内部API和对外API,再分别进行授权方式分类;然后进行版本管理和监控,获得监控记录;使用日志分析工具统计分析所述监控记录。