网络爬虫调度方法、装置及设备
摘要:
本发明提供一种网络爬虫调度方法、装置及设备。方法包括:获取站点的刷新频率,并将刷新频率发送至下载模块,以使下载模块根据刷新频率对站点的列表页进行刷新;根据刷新结果确定站点的实际刷新比例;根据实际刷新比例确定站点是否存在异常情况,若是,则将站点标记为异常站点,并且向下载模块发送停止刷新指令,以使下载模块不再对异常站点的列表页进行刷新。本实施例提供的方案能够通过控制下载模块的工作状态,避免下载模块从异常站点中采集无用网页数据引起的资源浪费问题,同时还能够提高采集有用网页数据的效率。
公开/授权文献
0/0