发明授权
- 专利标题: 网址净化方法及装置
-
申请号: CN201310632492.1申请日: 2013-12-02
-
公开(公告)号: CN103793462B公开(公告)日: 2016-08-31
- 发明人: 周雷 , 高扬 , 姜鑫 , 牛杏媛 , 蒋英雪
- 申请人: 北京奇虎科技有限公司 , 奇智软件(北京)有限公司
- 申请人地址: 北京市西城区新街口外大街28号D座112室(德胜园区)
- 专利权人: 北京奇虎科技有限公司,奇智软件(北京)有限公司
- 当前专利权人: 北京奇虎科技有限公司
- 当前专利权人地址: 北京市西城区新街口外大街28号D座112室(德胜园区)
- 代理机构: 北京工信联合知识产权代理事务所
- 代理商 郭一斐
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明提供了一种网址净化方法,包括以下步骤:将原始网址与可净化的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址模板集合;将原始网址与该网址模板集合中的网址模板的正则表达式进行匹配;判断正则表达式匹配成功的模板中是否包含命令字;若是则根据命令字对网址进行处理,转到输出净化后的新网址步骤,否则返回原始网址;输出净化后的新网址。此外本发明还相应地提供一种的网址净化装置。对于具备多种形式的网址,净化后可以判定其是否已经被抓取过,如果已经抓取就不必重复抓取,从而显著的提升爬虫抓取有效网页的能力,节省各种资源。
公开/授权文献
- CN103793462A 网址净化方法及装置 公开/授权日:2014-05-14