一种大规模网页集合的近似重复查找方法
摘要:
本发明涉及一种大规模网页集合近似重复查找的方法,使用文档的点签名来过滤网页内容噪声,结合分区和倒排索引剪枝来完成近似重复查找,使得近似重复查找效率高,仅计算点签名的Jaccard相似度使得方法的复杂度很低。
公开/授权文献
0/0