发明授权
- 专利标题: 一种无效地址网页过滤方法及系统
-
申请号: CN201811273076.6申请日: 2018-10-30
-
公开(公告)号: CN109446424B公开(公告)日: 2020-10-27
- 发明人: 周超然 , 刘妍 , 张昕 , 张莹 , 赵建平 , 冯欣 , 张剑飞 , 马太 , 孙庚
- 申请人: 长春理工大学
- 申请人地址: 吉林省长春市朝阳区卫星路7186号
- 专利权人: 长春理工大学
- 当前专利权人: 长春理工大学
- 当前专利权人地址: 吉林省长春市朝阳区卫星路7186号
- 代理机构: 北京高沃律师事务所
- 代理商 程华
- 主分类号: G06F16/9535
- IPC分类号: G06F16/9535
摘要:
本发明公开了一种无效地址网页过滤方法及系统。所述过滤方法包括:获取历史过滤特征词;根据历史过滤特征词建立待过滤特征词数据库;利用搜索引擎检索地理信息确定网页列表;根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表;获取所述待判断无效地址网页列表的网页属性;根据所述网页属性确定网页文本并构建可以判断网页是否为无效地址网页的决策树;根据构建好的决策树判断所述网页文本是否为有效地址网页,若是,将所述无效地址网页从所述待判断无效地址网页列表内过滤。采用本发明所提供的过滤方法及系统,基于搜索引擎检索地理信息的过滤方式提高了过滤无效地址网络的精准度。
公开/授权文献
- CN109446424A 一种无效地址网页过滤方法及系统 公开/授权日:2019-03-08