发明授权
- 专利标题: 一种大规模网页集合的近似重复查找方法
-
申请号: CN201410779353.6申请日: 2014-12-15
-
公开(公告)号: CN104392002B公开(公告)日: 2017-09-26
- 发明人: 张鹏 , 熊翠文 , 刘庆云 , 杨嵘 , 郑超 , 刘俊朋 , 李舒
- 申请人: 中国科学院信息工程研究所
- 申请人地址: 北京市海淀区闵庄路甲89号
- 专利权人: 中国科学院信息工程研究所
- 当前专利权人: 中国科学院信息工程研究所
- 当前专利权人地址: 北京市海淀区闵庄路甲89号
- 代理机构: 北京科迪生专利代理有限责任公司
- 代理商 成金玉; 孟卜娟
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明涉及一种大规模网页集合近似重复查找的方法,使用文档的点签名来过滤网页内容噪声,结合分区和倒排索引剪枝来完成近似重复查找,使得近似重复查找效率高,仅计算点签名的Jaccard相似度使得方法的复杂度很低。
公开/授权文献
- CN104392002A 一种大规模网页集合的近似重复查找方法 公开/授权日:2015-03-04