-
公开(公告)号:CN107545179A
公开(公告)日:2018-01-05
申请号:CN201710558799.X
申请日:2017-07-11
Applicant: 宁波大学
IPC: G06F21/56
Abstract: 本发明涉及一种垃圾网页识别方法,从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,统计训练集中每个训练网页对应的有向图三角的数目,将得到的有向图三角特征与网页中包含的链接特征、链接组合特征、网页标签特征进行组合,使用随机森林对组合特征集进行训练,得到四个训练模型;将未识别网页的有向图三角特征与未识别网页的链接特征、链接组合特征进行组合,四组未识别网页的测试组合特征集分别对应输入到步骤(3)得到的四个训练模型中进行测试,分别得到4个网页标签特征测试结果。本发明的优点在于:使用有向图三角特征提高了垃圾网页识别的准确率。
-
公开(公告)号:CN107545179B
公开(公告)日:2020-06-19
申请号:CN201710558799.X
申请日:2017-07-11
Applicant: 宁波大学
IPC: G06F21/56
Abstract: 本发明涉及一种垃圾网页识别方法,从已识别的网页中随机选取数目相同的已被标记的垃圾网页和已被标记的非垃圾网页构建训练集,统计训练集中每个训练网页对应的有向图三角的数目,将得到的有向图三角特征与网页中包含的链接特征、链接组合特征、网页标签特征进行组合,使用随机森林对组合特征集进行训练,得到四个训练模型;将未识别网页的有向图三角特征与未识别网页的链接特征、链接组合特征进行组合,四组未识别网页的测试组合特征集分别对应输入到步骤(3)得到的四个训练模型中进行测试,分别得到4个网页标签特征测试结果。本发明的优点在于:使用有向图三角特征提高了垃圾网页识别的准确率。
-