发明公开
- 专利标题: 一种网络爬虫调度方法、装置、设备及可读存储介质
-
申请号: CN202110001476.7申请日: 2021-01-04
-
公开(公告)号: CN114722258A公开(公告)日: 2022-07-08
- 发明人: 边增亚
- 申请人: 中国移动通信有限公司研究院 , 中国移动通信集团有限公司
- 申请人地址: 北京市西城区宣武门西大街32号;
- 专利权人: 中国移动通信有限公司研究院,中国移动通信集团有限公司
- 当前专利权人: 中国移动通信有限公司研究院,中国移动通信集团有限公司
- 当前专利权人地址: 北京市西城区宣武门西大街32号;
- 代理机构: 北京银龙知识产权代理有限公司
- 代理商 许静; 曹娜
- 主分类号: G06F16/951
- IPC分类号: G06F16/951 ; G06F16/9537 ; G06F16/958 ; G06F9/48 ; G06N3/04 ; G06N3/08
摘要:
本发明提供一种网络爬虫调度方法、装置、设备及可读存储介质,涉及网络爬虫技术领域,该网络爬虫调度方法,包括获取目标网站在目标时刻前第一时间段内的历史信息发布数据;基于历史信息发布数据与第一时间段,获取信息发布数据与目标时间段之间的对应关系,第一时间段包括多个目标时间段;基于对应关系预测目标网站在目标时刻后第二时间段内的预测信息发布数据;基于目标时间段和预测信息发布数据确定调度频率;基于调度频率执行网络爬虫调度。可以解决现有的网络爬虫调度方法无法在节省硬件资源的同时提升网络爬取的时效性的问题。