一种无效地址网页过滤方法及系统
摘要:
本发明公开了一种无效地址网页过滤方法及系统。所述过滤方法包括:获取历史过滤特征词;根据历史过滤特征词建立待过滤特征词数据库;利用搜索引擎检索地理信息确定网页列表;根据所述待过滤特征词数据库过滤所述网页列表内无效地址网页,确定待判断无效地址网页列表;获取所述待判断无效地址网页列表的网页属性;根据所述网页属性确定网页文本并构建可以判断网页是否为无效地址网页的决策树;根据构建好的决策树判断所述网页文本是否为有效地址网页,若是,将所述无效地址网页从所述待判断无效地址网页列表内过滤。采用本发明所提供的过滤方法及系统,基于搜索引擎检索地理信息的过滤方式提高了过滤无效地址网络的精准度。
公开/授权文献
0/0