-
公开(公告)号:CN112651296A
公开(公告)日:2021-04-13
申请号:CN202011320816.4
申请日:2020-11-23
申请人: 安徽继远软件有限公司 , 国网信息通信产业集团有限公司
IPC分类号: G06K9/00 , G06K9/62 , G06F40/289 , G06N20/00
摘要: 本发明的一种无先验知识数据质量问题自动探查方法及系统,包括:通过训练好的数据字段的非空要求的模型,自动识别出数据字段异常空值的情况,并标记为异常数据;识别建立数据表间外键关系,并识别出外键缺失的异常数据;自动识别表中的实际主键,并对非唯一的主键进行识别并标记。本发明的无先验知识数据质量问题自动探查方法及系统通过集成多个自动化地算法系统对数据进行检验,减少人力耗费;在数据质量核查过程中,无需人工提供核查规则;具备可学习的的特性,随着模型应用时间的增加,其识别准确率会越来越高;在模型识别过程中,会自动产生发现部分数据间的逻辑联系,便于数据盘点工作的展开。