网址净化方法及装置
摘要:
本发明提供了一种网址净化方法,包括以下步骤:将原始网址与可净化的域名集合中的域名进行匹配;根据匹配成功的域名定位到对应的网址模板集合;将原始网址与该网址模板集合中的网址模板的正则表达式进行匹配;判断正则表达式匹配成功的模板中是否包含命令字;若是则根据命令字对网址进行处理,转到输出净化后的新网址步骤,否则返回原始网址;输出净化后的新网址。此外本发明还相应地提供一种的网址净化装置。对于具备多种形式的网址,净化后可以判定其是否已经被抓取过,如果已经抓取就不必重复抓取,从而显著的提升爬虫抓取有效网页的能力,节省各种资源。
公开/授权文献
0/0