发明公开
- 专利标题: 内容爬取方法与装置以及分布式爬虫系统
- 专利标题(英): Content crawling method and device and distributed crawler system
-
申请号: CN201810549416.7申请日: 2018-05-31
-
公开(公告)号: CN110633429A公开(公告)日: 2019-12-31
- 发明人: 支海邦 , 李猛 , 喻海林
- 申请人: 北京京东尚科信息技术有限公司 , 北京京东世纪贸易有限公司
- 申请人地址: 北京市海淀区杏石口路65号西杉创意园四区11号楼东段1-4层西段1-4层
- 专利权人: 北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司
- 当前专利权人: 北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司
- 当前专利权人地址: 北京市海淀区杏石口路65号西杉创意园四区11号楼东段1-4层西段1-4层
- 代理机构: 北京律智知识产权代理有限公司
- 代理商 阚梓瑄; 王卫忠
- 主分类号: G06F16/954
- IPC分类号: G06F16/954
摘要:
本公开提供一种内容爬取方法与装置。内容爬取方法包括:根据多个待爬取网站的地址创建多个爬取进程;在所述爬取进程的爬取结果是网络地址时,根据所述网络地址的地址种类将所述网络地址写入与所述地址种类对应的多个地址队列之一根据所述地址队列创建与所述地址种类对应的爬取进程,重复上一步,直至所述爬取结果是预设内容。本公开提供的内容爬取方法可以均衡负载压力,降低爬取范围扩展难度。
公开/授权文献
- CN110633429B 内容爬取方法与装置以及分布式爬虫系统 公开/授权日:2024-09-20