-
公开(公告)号:CN117556363B
公开(公告)日:2024-04-09
申请号:CN202410038183.X
申请日:2024-01-11
申请人: 中电科大数据研究院有限公司
IPC分类号: G06F18/2433 , G06F40/289 , G06F40/216
摘要: 本发明涉及数据质量技术领域,具体涉及了一种基于多源数据联合检测的数据集异常识别方法。包括以下步骤:S100:分别获取来自不同参与方的文本类数据的数据集;S200:识别并提取出不同参与方的数据集中具有交集的部分,作为识别数据集,分别对不同参与方的识别数据集进行预处理后,将识别数据集中的各项文本数据均转换为特征向量300:将不同参与方的识别数据集中的特征向量进行比对,各个参与方的识别数据中文本数据不一致的部分,作为异常数据,并对异常数据进行定位;S400:分别识别异常数据在其所述识别数据集中的数据归属中的数据属性,根据数据属性选择检测方式,检测各参与方的异常数据在其所述数据集的数据归属中是否为正常数据或是异常数据。
-
公开(公告)号:CN117315379A
公开(公告)日:2023-12-29
申请号:CN202311612473.2
申请日:2023-11-29
申请人: 中电科大数据研究院有限公司
IPC分类号: G06V10/764 , G06V10/774 , G06V10/778
摘要: 本发明公开了一种面向深度学习的医学影像分类模型公平性评估方法及装置,该方法包括:采集患者X光影像,所述患者X光影像中包括一个或多个标签;构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;利用所述训练数据集训练得到基于深度学习的患病预测模型;利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;根据所述测试结果确定模型的公平性。利用本发明方案,可以有效地评估模型的公平性。
-
公开(公告)号:CN115757573B
公开(公告)日:2023-11-14
申请号:CN202211384184.7
申请日:2022-11-07
申请人: 中电科大数据研究院有限公司
摘要: 本申请公开了一种图谱数据的处理方法,包括:获取多源异构数据,对多源异构数据的类型进行判断;对多源异构数据中的结构化数据,根据预设的关联规则,对结构化数据中的字段直接进行关联,形成关联关系;对多源异构数据中的非结构化数据,判断其是否有元数据;若有元数据,则提取元数据,并使用元数据与其它数据集进行关联,形成关联关系;若没有元数据,则为非结构化数据配置元数据,并使用配置的元数据与其它数据集进行关联,形成关联关系;对关联关系的属性进行定义,并根据定义后的关联关系对多源异构数据进行结构化;以定义后的关联关系为连接,生成新的关系型数据,并将关系型数据导入图数据库中。
-
公开(公告)号:CN116150405B
公开(公告)日:2023-06-27
申请号:CN202310416643.3
申请日:2023-04-19
申请人: 中电科大数据研究院有限公司 , 太极计算机股份有限公司
IPC分类号: G06F16/36 , G06F40/30 , G06F18/25 , G06F18/22 , G06N3/0464 , G06N3/045 , G06N3/09 , G06N3/084
摘要: 本发明提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明提升了异构数据融合的准确性。
-
公开(公告)号:CN117315379B
公开(公告)日:2024-03-12
申请号:CN202311612473.2
申请日:2023-11-29
申请人: 中电科大数据研究院有限公司
IPC分类号: G06V10/764 , G06V10/774 , G06V10/778
摘要: 本发明公开了一种面向深度学习的医学影像分类模型公平性评估方法及装置,该方法包括:采集患者X光影像,所述患者X光影像中包括一个或多个标签;构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;利用所述训练数据集训练得到基于深度学习的患病预测模型;利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;根据所述测试结果确定模型的公平性。利用本发明方案,可以有效地评估模型的公平性。
-
公开(公告)号:CN117151429B
公开(公告)日:2024-01-26
申请号:CN202311408966.4
申请日:2023-10-27
申请人: 中电科大数据研究院有限公司
IPC分类号: G06Q10/0631 , G06Q10/10 , G06Q50/26 , G06F16/36 , G06F40/30 , G06N3/006 , G06Q10/0633
摘要: 本发明提供一种基于知识图谱的政务服务流程编排方法及装置,属于知识图谱技术领域,本发明实施例的一种基于知识图谱的政务服务流程编排方法,通过对请求信息进行语义分析进而识别出实体在目标政务知识图谱中对应的初始节点,利用粒子群优化算法在初始节点的基础上筛选得到与请求信息匹配程度较大的补充节点,尽可能扩大信息获取的范围,进而可以得到详细程度更高的信息,并再次利用粒子群优化算法在初始节点与补充节点中得到最终全局最优的目标节点来生成政务服务流程,提高了生成信息的详细程度与准确度,可以对用户输入的请求
-
公开(公告)号:CN116936124A
公开(公告)日:2023-10-24
申请号:CN202311199193.3
申请日:2023-09-18
申请人: 中电科大数据研究院有限公司
摘要: 本申请公开了一种健康医疗标准体系构建方法、系统及装置,用于对健康医疗标准数据进行有效管理。本申请方法包括:确定标准关键词,并根据标准关键词获取关于健康医疗领域的标准文献数据;将标准文献数据输入向量数据库中进行数据清洗,去除重复和无关数据,得到清洗后的标准文献数据,并将标准文献数据存储在向量数据库中,构建健康医疗标准二维表;将健康医疗标准二维表存储至标准体系数据库中;将所述标准体系数据库中的标准文献数据输入预先构建好的参考模型中进行定位标记,得到标准体系模型,所述参考模型为三维立体模型,且所述参考模型以业务领域为X轴,标准类别为Y轴,标准级别为Z轴;基于所述标准体系模型构建健康医疗标准体系。
-
公开(公告)号:CN115829371A
公开(公告)日:2023-03-21
申请号:CN202211387954.3
申请日:2022-11-07
申请人: 中电科大数据研究院有限公司
IPC分类号: G06Q10/0639 , G06Q50/26
摘要: 本申请公开了一种应用于政务领域的数据质量评估方法及相关装置,用于用于使政务领域的数据质量评估可量化、可落地且可迭代。本申请方法包括:根据政务领域的业务场景确定数据质量评价指标;基于数据质量评价指标确定指标约束规则;根据数据质量评价指标及指标约束规则构建数据质量评估算法模型;获取待评估的政务领域的目标数据集,并确定目标数据集对应的目标数据质量评价指标及目标指标约束规则,政务领域的目标数据集为目标职能部门在办理目标业务及进行目标决策时产生的数据;确定目标指标约束规则的目标权重值;将目标指标约束规则、目标权重值及目标数据集输入数据质量评估算法模型,获取目标数据集的数据质量评估结果。
-
公开(公告)号:CN116842099B
公开(公告)日:2024-03-19
申请号:CN202310517767.0
申请日:2023-05-09
申请人: 中电科大数据研究院有限公司
IPC分类号: G06F16/27 , G06F16/36 , G06F16/2455 , G06F16/2457 , G06N5/01 , G06N5/02 , G06F18/22 , G06F18/2433 , G06F18/25
摘要: 本发明涉及信息处理领域,公开了一种多源异构数据处理方法和系统,通过配置服务器群包括元服务器,数据服务器,关系服务器及控制器;通过关系服务器根据历史知识图谱和词典数据的信息,将元数据归属于不同的主题下,通过构建主题之间的逻辑关联关系,对获取到的数据做清洗;借助于控制器和用户的反馈机制,通过触发验证机制,预先在数据服务器中对数据源做标引,执行数据信息的可信度评估并做约束控制,有效保障异构数据处理的效率和便捷。
-
公开(公告)号:CN117390132A
公开(公告)日:2024-01-12
申请号:CN202311247296.2
申请日:2023-09-25
申请人: 中电科大数据研究院有限公司
摘要: 本申请公开了一种管理数据与API的方法、系统及存储介质,用于将数据管理和API管理整合在一个管理平台,提高安全质量和使用效率。本申请管理数据与API的方法包括:使用数据分析技术对获取的多源异构数据进行类型识别,获得识别结果再进行抽取,获得抽取结果;判断所述多源异构数据的存储类型与预先定义的数据存储类型是否相同;将所述多源异构数据的存储类型转化为预先定义的数据存储类型;将转化后的数据存入所述数据库并进行内容识别;识别后进行合并、移除或补全;将API分成内部API和对外API,再分别进行授权方式分类;然后进行版本管理和监控,获得监控记录;使用日志分析工具统计分析所述监控记录。
-
-
-
-
-
-
-
-
-