一种脏数据检测的方法和装置
摘要:
本发明给出了一种脏数据检测的方法和装置,包括对原始数据的属性类型进行归一化处理后再进行属性特征分析,从而区分出其中的已明确类型的原始数据项和未明确类型的原始数据项,根据区分出来的结果对原始数据匹配合适的脏数据检测方案。此外,基于不同的分类方式分别对原始数据进行分类,并利用匹配到的脏数据检测方案进行检测后统计各分类的脏数据比例,根据得到的脏数据比例调整所使用的脏数据检测方案,重新统计各分类的脏数据比例,最终对同一数据项选取脏数据比例为最高时所使用的脏数据检测方案为优先执行的脏数据检测方案。本发明能够快速准确地识别海量原始数据中的脏数据,大大提高了大数据的分析利用价值,减少大数据系统的建设成本。
公开/授权文献
0/0