- 专利标题: 基于快慢线程池的网页数据采集方法
-
申请号: CN202410860699.2申请日: 2024-06-28
-
公开(公告)号: CN118963928A公开(公告)日: 2024-11-15
- 发明人: 郝伟 , 刘加瑞
- 申请人: 安徽华云安科技有限公司
- 申请人地址: 安徽省合肥市高新区华佗巷469号国科智安·智慧安全谷4号楼301室
- 专利权人: 安徽华云安科技有限公司
- 当前专利权人: 安徽华云安科技有限公司
- 当前专利权人地址: 安徽省合肥市高新区华佗巷469号国科智安·智慧安全谷4号楼301室
- 代理机构: 北京华专卓海知识产权代理事务所(普通合伙) 11664专利代理师王一
- 主分类号: G06F9/48
- IPC分类号: G06F9/48 ; G06F16/957
摘要:
本公开的实施例提供了一种基于快慢线程池的网页数据采集方法;应用于网页数据采集技术领域。所述方法包括将快速线程池各子线程执行的任务中已完成任务移动至完成任务列表,快速线程池子线程下载从待处理URL列表中提取的URL;将慢速线程池各子线程执行的任务中所有任务移动至完成任务列表,慢速线程池子线程执行快速线程池各子线程执行超时/失败的任务;将完成任务列表中所有已完成任务的任务信息保存至日志;若待处理URL列表中仍有待下载URL,则依次重复以上步骤至待处理URL列表中全部URL提取完成。以此方式,可充分发挥系统资源性能,避免系统负载过重/网络拥塞,实现超高速网页数据下载,提高下载效率,节约时间/成本。