一种基于爬虫网络框架的数据采集储存系统及其方法

    公开(公告)号:CN114238734A

    公开(公告)日:2022-03-25

    申请号:CN202111489435.3

    申请日:2021-12-08

    IPC分类号: G06F16/951 G06F16/955

    摘要: 本发明公开了一种基于爬虫网络框架的数据采集储存系统及其方法,包括爬虫引擎、调度器、下载器、解析器、存储管道,调度器、下载器、解析器分别与爬虫引擎信号连接;通道包括项目管道、业务逻辑模块;业务逻辑模块在项目管道中分拣结构化数据和非结构数据,并将不同类别的数据存储至不用的存储模块中;调度器与下载器中间设置有去重模块,去重模块采用MD5算法对URL去重。现有技术去重模块设置的位置一般在存储通道位置,其去重时间长,爬取网页速度慢,本发明设置在调度器与下载器数据传递之间,节省了去重时间;另外,本发明存储通道具备MongoDB集群技术,结构化数据和非结构化数据最后统一整合至MongoDB集群中,具备通用性。