一种识别相似网页的方法及装置
Abstract:
本发明公开了一种识别相似网页的方法及装置,属于计算机技术领域。所述方法包括:分别获取待分类的第一网页的超文本标记语言HTML元素信息和已知类别信息的第二网页的HTML元素信息;根据所述第一网页和所述第二网页的HTML元素信息,计算所述第一网页和所述第二网页的相似度;当所述相似度大于预设相似阈值时,确定所述第一网页和所述第二网页为相似网页。本发明通过获取待分类的第一网页与已知类别的第二网页的HTML元素信息,并根据两个网页对应的HTML元素信息计算相似度,确定两个网页是否相似,弥补了现有技术中人工判断网页相似度效率低下以及通过直方图判断网页相似度误判率较高的缺陷。
Public/Granted literature
Patent Agency Ranking
0/0