- 专利标题: 一种基于DOM网页剪枝的相似网页查找方法及系统
-
申请号: CN201810801006.7申请日: 2018-07-20
-
公开(公告)号: CN109062876B公开(公告)日: 2019-07-12
- 发明人: 汪敏 , 刘鹏飞 , 刘轩山 , 李绪祥 , 尹娜
- 申请人: 北京开普云信息科技有限公司 , 开普云信息科技股份有限公司
- 申请人地址: 北京市海淀区知春路26号量子银座601
- 专利权人: 北京开普云信息科技有限公司,开普云信息科技股份有限公司
- 当前专利权人: 北京开普云信息科技有限公司,开普云信息科技股份有限公司
- 当前专利权人地址: 北京市海淀区知春路26号量子银座601
- 主分类号: G06F17/22
- IPC分类号: G06F17/22
摘要:
本发明提供了一种基于DOM网页剪枝的相似网页查找方法及系统,其包括步骤:输入数据格式化:获取网页的数字化标识;相似网页查找:在存储网页数字化标识的数据库中查找相似网页。其中,所述获取网页的数据化标识具体包括以下步骤:网页数据格式化:获取输入网页的HTML源代码;网页净化:去除网页中的冗余信息;生成网页的DOM树:对网页进行DOM解析,生成DOM树;精炼的DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识。本发明方法能够提高海量网页中相似网页的查找效率。
公开/授权文献
- CN109062876A 一种基于DOM网页剪枝的相似网页查找方法及系统 公开/授权日:2018-12-21