内容爬取方法与装置以及分布式爬虫系统
摘要:
本公开提供一种内容爬取方法与装置。内容爬取方法包括:根据多个待爬取网站的地址创建多个爬取进程;在所述爬取进程的爬取结果是网络地址时,根据所述网络地址的地址种类将所述网络地址写入与所述地址种类对应的多个地址队列之一根据所述地址队列创建与所述地址种类对应的爬取进程,重复上一步,直至所述爬取结果是预设内容。本公开提供的内容爬取方法可以均衡负载压力,降低爬取范围扩展难度。
公开/授权文献
0/0