一种基于数据特征的大规模数据质量异常检测方法

    公开(公告)号:CN113569006A

    公开(公告)日:2021-10-29

    申请号:CN202110671429.3

    申请日:2021-06-17

    IPC分类号: G06F16/33 G06F40/242

    摘要: 本发明公开了一种基于数据特征的大规模数据质量异常检测方法,包括以下步骤:构建数据异常检测方法库,根据每种数据特征设置对应的检测方法,汇总形成数据异常检测方法库;对数据特征进行异常检测方法匹配,根据匹配结果中的异常检测方法进行检测;大规模数据特征遍历,对每个数据特征进行匹配和检测。本发明的实质性效果包括:将异常检测由检测规则驱动的方式转变为由数据特征驱动的方式,基于各字段中数据本身的特征信息生成相应的异常值检测方法,同时针对大规模数据设置特殊的模糊化处理机制,实现数据质量检核的规模化与自动化,提高数据质量问题检测效率。