基于快慢线程池的网页数据采集方法
摘要:
本公开的实施例提供了一种基于快慢线程池的网页数据采集方法;应用于网页数据采集技术领域。所述方法包括将快速线程池各子线程执行的任务中已完成任务移动至完成任务列表,快速线程池子线程下载从待处理URL列表中提取的URL;将慢速线程池各子线程执行的任务中所有任务移动至完成任务列表,慢速线程池子线程执行快速线程池各子线程执行超时/失败的任务;将完成任务列表中所有已完成任务的任务信息保存至日志;若待处理URL列表中仍有待下载URL,则依次重复以上步骤至待处理URL列表中全部URL提取完成。以此方式,可充分发挥系统资源性能,避免系统负载过重/网络拥塞,实现超高速网页数据下载,提高下载效率,节约时间/成本。
0/0