- 专利标题: 基于分类管理的多线程网络爬虫方法和信息实时更新系统
-
申请号: CN201410633279.7申请日: 2014-11-11
-
公开(公告)号: CN104376063B公开(公告)日: 2019-02-19
- 发明人: 徐琼 , 周井泉
- 申请人: 南京邮电大学
- 申请人地址: 江苏省南京市鼓楼区新模范马路66号
- 专利权人: 南京邮电大学
- 当前专利权人: 南京华睿智光信息科技研究院有限公司
- 当前专利权人地址: 江苏省南京市鼓楼区新模范马路66号
- 代理机构: 南京知识律师事务所
- 代理商 汪旭东
- 主分类号: G06F16/951
- IPC分类号: G06F16/951 ; G06F9/48
摘要:
本发明公开了基于分类管理的多线程网络爬虫方法的信息实时更新系统,该系统包括页面获取模块,页面处理模块,模块化机制模块,多线程循环模块,标记队列管理模块,存储模块。系统采用多线程网络爬虫并加以改进,引入标记思想,对已经爬取结束的线程使用队列方式进行标记,解决一般多线程方法中循环爬虫时产生的相互干扰的问题。系统采用模块化机制实现各个不同信息的采集,以便于动态的增加、减少目标文件,方便整个系统的维护修改。本发明方法很好地利用了网络带宽资源,提高了网络信息采集的效率,并减少了多线程爬虫时的干扰,特别适用于信息实时更新系统的网络爬虫问题。
公开/授权文献
- CN104376063A 基于分类管理的多线程网络爬虫方法和信息实时更新系统 公开/授权日:2015-02-25