-
公开(公告)号:CN102932448B
公开(公告)日:2016-04-27
申请号:CN201210425213.X
申请日:2012-10-30
Applicant: 工业和信息化部电信传输研究所
IPC: H04L29/08
Abstract: 一种分布式网络爬虫的URL排重系统及方法,所述系统包括爬虫采集子节点,中心服务器,数据库服务器。所述方法包括:爬虫采集子节点在中心服务器上进行注册;爬虫采集子节点从数据库等待队列中获取URL,从此URL获取新的URL信息;爬虫采集子节点对新获取的URL进行一级排重,如一级排重未通过,则放弃该URL;如一级排重通过,将新获取的URL加入本地URL摘要表并发送给中心服务器;中心服务器对新获取的URL进行二级排重,如二级排重通过,将URL加入全局URL摘要表;爬虫采集子节点将该URL的链接加入到等待队列中。本发明提供的系统及方法通过分级排重机制可以将原来集中在中心节点进行的排重任务通过一级排重分解到各爬虫采集子节点,中心服务器通过二级排重的方式维护一张全局排重表格,十分方便于系统进行扩展,系统的设计、部署与运行变得十分灵活、方便。
-
公开(公告)号:CN102932448A
公开(公告)日:2013-02-13
申请号:CN201210425213.X
申请日:2012-10-30
Applicant: 工业和信息化部电信传输研究所
IPC: H04L29/08
Abstract: 一种分布式网络爬虫的URL排重系统及方法,所述系统包括爬虫采集子节点,中心服务器,数据库服务器。所述方法包括:爬虫采集子节点在中心服务器上进行注册;爬虫采集子节点从数据库等待队列中获取URL,从此URL获取新的URL信息;爬虫采集子节点对新获取的URL进行一级排重,如一级排重未通过,则放弃该URL;如一级排重通过,将新获取的URL加入本地URL摘要表并发送给中心服务器;中心服务器对新获取的URL进行二级排重,如二级排重通过,将URL加入全局URL摘要表;爬虫采集子节点将该URL的链接加入到等待队列中。本发明提供的系统及方法通过分级排重机制可以将原来集中在中心节点进行的排重任务通过一级排重分解到各爬虫采集子节点,中心服务器通过二级排重的方式维护一张全局排重表格,十分方便于系统进行扩展,系统的设计、部署与运行变得十分灵活、方便。
-