一种基于DOM网页剪枝的相似网页查找方法及系统
摘要:
本发明提供了一种基于DOM网页剪枝的相似网页查找方法及系统,其包括步骤:输入数据格式化:获取网页的数字化标识;相似网页查找:在存储网页数字化标识的数据库中查找相似网页。其中,所述获取网页的数据化标识具体包括以下步骤:网页数据格式化:获取输入网页的HTML源代码;网页净化:去除网页中的冗余信息;生成网页的DOM树:对网页进行DOM解析,生成DOM树;精炼的DOM树:遍历DOM树,寻找最小格式节点,删除最小格式节点的子孙节点,形成一个新的DOM树;文本序列转换:对新的DOM树进行深度优先遍历,得到一个HTML标签拼接的文本序列;数字标识生成:利用simhash算法计算所述文本序列,得到该网页的数字化标识。本发明方法能够提高海量网页中相似网页的查找效率。
0/0