发明授权
- 专利标题: 一种脏数据检测的方法和装置
-
申请号: CN202111123840.3申请日: 2021-09-24
-
公开(公告)号: CN113837278B公开(公告)日: 2022-06-28
- 发明人: 林文楷 , 连志阳 , 陈文艺 , 鄢小征 , 魏超 , 蓝坤宏
- 申请人: 厦门市美亚柏科信息股份有限公司
- 申请人地址: 福建省厦门市思明区软件园二期观日路12号102-402单元
- 专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人地址: 福建省厦门市思明区软件园二期观日路12号102-402单元
- 代理机构: 厦门福贝知识产权代理事务所
- 代理商 郭涵炜
- 主分类号: G06K9/62
- IPC分类号: G06K9/62 ; G06F16/2458
摘要:
本发明给出了一种脏数据检测的方法和装置,包括对原始数据的属性类型进行归一化处理后再进行属性特征分析,从而区分出其中的已明确类型的原始数据项和未明确类型的原始数据项,根据区分出来的结果对原始数据匹配合适的脏数据检测方案。此外,基于不同的分类方式分别对原始数据进行分类,并利用匹配到的脏数据检测方案进行检测后统计各分类的脏数据比例,根据得到的脏数据比例调整所使用的脏数据检测方案,重新统计各分类的脏数据比例,最终对同一数据项选取脏数据比例为最高时所使用的脏数据检测方案为优先执行的脏数据检测方案。本发明能够快速准确地识别海量原始数据中的脏数据,大大提高了大数据的分析利用价值,减少大数据系统的建设成本。
公开/授权文献
- CN113837278A 一种脏数据检测的方法和装置 公开/授权日:2021-12-24