海量结构化数据中的重复数据检测方法和系统
摘要:
本发明涉及一种海量结构化数据中的重复数据检测方法和系统。上述海量结构化数据中的重复数据检测方法包括:分别获取海量结构化数据中各个结构化数据的哈希码,根据所述哈希码识别海量结构数据中的重复数据和非重复数据,将所述重复数据保存在第一数据集合,将所述非重复数据保存在第二数据集合;将第一数据集合以及第二数据集合分别发送至分布式集群中不同的计算节点;在所述计算节点进行第二数据集合中各个结构化数据中与分布式集群的本地数据之间的重复性检查,若识别到第二数据集合中的结构化数据与本地数据相重复,则将该结构化数据从第二数据集合移动至第一数据集合;将所述第一数据集合内的结构化数据确定为海量结构化数据中的重复数据。
0/0