发明授权
CN110874430B 网络爬虫调度方法、装置及设备
失效 - 权利终止
- 专利标题: 网络爬虫调度方法、装置及设备
-
申请号: CN201810904421.5申请日: 2018-08-09
-
公开(公告)号: CN110874430B公开(公告)日: 2022-06-14
- 发明人: 杨飞 , 张学颖 , 张丹
- 申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
- 申请人地址: 北京市海淀区成府路298号中关村方正大厦9层;
- 专利权人: 北大方正集团有限公司,北京北大方正电子有限公司
- 当前专利权人: 北大方正集团有限公司,北京北大方正电子有限公司
- 当前专利权人地址: 北京市海淀区成府路298号中关村方正大厦9层;
- 代理机构: 北京同立钧成知识产权代理有限公司
- 代理商 张子青; 刘芳
- 主分类号: G06F16/953
- IPC分类号: G06F16/953 ; G06F16/958
摘要:
本发明提供一种网络爬虫调度方法、装置及设备。方法包括:获取站点的刷新频率,并将刷新频率发送至下载模块,以使下载模块根据刷新频率对站点的列表页进行刷新;根据刷新结果确定站点的实际刷新比例;根据实际刷新比例确定站点是否存在异常情况,若是,则将站点标记为异常站点,并且向下载模块发送停止刷新指令,以使下载模块不再对异常站点的列表页进行刷新。本实施例提供的方案能够通过控制下载模块的工作状态,避免下载模块从异常站点中采集无用网页数据引起的资源浪费问题,同时还能够提高采集有用网页数据的效率。
公开/授权文献
- CN110874430A 网络爬虫调度方法、装置及设备 公开/授权日:2020-03-10