发明公开
- 专利标题: 海量结构化数据中的重复数据检测方法和系统
- 专利标题(英): Method and system of duplicated-data detection in massive structured data
-
申请号: CN201710623965.X申请日: 2017-07-27
-
公开(公告)号: CN107423402A公开(公告)日: 2017-12-01
- 发明人: 黄文琦 , 李鹏 , 许爱东 , 陈晓 , 陈华军 , 李果 , 蒋屹新 , 杨航 , 张福铮
- 申请人: 南方电网科学研究院有限责任公司 , 中国南方电网有限责任公司电网技术研究中心
- 申请人地址: 广东省广州市萝岗区科学城科翔路11号J1栋3、4、5楼及J3栋3楼
- 专利权人: 南方电网科学研究院有限责任公司,中国南方电网有限责任公司电网技术研究中心
- 当前专利权人: 南方电网科学研究院有限责任公司,中国南方电网有限责任公司电网技术研究中心
- 当前专利权人地址: 广东省广州市萝岗区科学城科翔路11号J1栋3、4、5楼及J3栋3楼
- 代理机构: 广州华进联合专利商标代理有限公司
- 代理商 黄隶凡
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明涉及一种海量结构化数据中的重复数据检测方法和系统。上述海量结构化数据中的重复数据检测方法包括:分别获取海量结构化数据中各个结构化数据的哈希码,根据所述哈希码识别海量结构数据中的重复数据和非重复数据,将所述重复数据保存在第一数据集合,将所述非重复数据保存在第二数据集合;将第一数据集合以及第二数据集合分别发送至分布式集群中不同的计算节点;在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查,若识别到第二数据集合中的结构化数据与本地数据相重复,则将该结构化数据从第二数据集合移动至第一数据集合;将所述第一数据集合内的结构化数据确定为海量结构化数据中的重复数据。