一种基于内容的垃圾网页检测方法及其检测装置

    公开(公告)号:CN105183784B

    公开(公告)日:2020-04-28

    申请号:CN201510502698.1

    申请日:2015-08-14

    申请人: 天津大学

    摘要: 本发明公开了一种基于内容的垃圾网页检测方法及其检测装置,方法包括:计算所有网页与种子垃圾网页的内容最大相似度值,生成相似度集合;利用PageRank算法对所有网页进行降序排序;基于排序结果,从相似度集合中查寻网页与种子垃圾网页间的内容相似度值;比较相似度值与相似度阈值,对网页进行检测,并将检测出的垃圾网页加入到垃圾网页集合中。装置包括:生成模块、排序模块、查询模块和检测模块,通过这些模块,本发明在传统的PageRank算法基础上加入对网页内容相似度的判定,把网页的链接与内容结合起来,对垃圾网页进行检测,以此提高了垃圾网页检测的准确度和效率。

    基于内容的网络链接拓扑重构方法

    公开(公告)号:CN105930365A

    公开(公告)日:2016-09-07

    申请号:CN201610226689.9

    申请日:2016-04-11

    申请人: 天津大学

    IPC分类号: G06F17/30

    CPC分类号: G06F16/951

    摘要: 一种基于内容的网络链接拓扑重构方法,包括:从内容特征方面和链接特征方面剔除冗余和不相关特征属性,组合新特征向量;计算两个相连网页间相似度,确定两个相连网页间的相关性;根据网页相关性,剔除垃圾链接得到权值计算公式,拓扑中权重越高的链接相连的两个网页相似度越高;根据链接的权值,重新生成网络链接拓扑。本发明在TrustRank算法基础上加入网页内容分析,通过网页间相似度距离与链接数识别垃圾链接,从内容的角度对网络链接拓扑进行重构,能够有效克服基于链接的网页检测方法忽略垃圾链接存在的可能性,可提高检测和识别垃圾网页的效率。

    一种基于内容的垃圾网页检测方法及其检测装置

    公开(公告)号:CN105183784A

    公开(公告)日:2015-12-23

    申请号:CN201510502698.1

    申请日:2015-08-14

    申请人: 天津大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于内容的垃圾网页检测方法及其检测装置,方法包括:计算所有网页与种子垃圾网页的内容最大相似度值,生成相似度集合;利用PageRank算法对所有网页进行降序排序;基于排序结果,从相似度集合中查寻网页与种子垃圾网页间的内容相似度值;比较相似度值与相似度阈值,对网页进行检测,并将检测出的垃圾网页加入到垃圾网页集合中。装置包括:生成模块、排序模块、查询模块和检测模块,通过这些模块,本发明在传统的PageRank算法基础上加入对网页内容相似度的判定,把网页的链接与内容结合起来,对垃圾网页进行检测,以此提高了垃圾网页检测的准确度和效率。