- 专利标题: 一种基于代理的HTTP报文采集方法、终端设备及存储介质
-
申请号: CN202110158253.1申请日: 2021-02-05
-
公开(公告)号: CN112995291B公开(公告)日: 2023-02-21
- 发明人: 赖子琪 , 王博 , 朱振水
- 申请人: 厦门市美亚柏科信息股份有限公司
- 申请人地址: 福建省厦门市软件园二期观日路12号102-402单元
- 专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人地址: 福建省厦门市软件园二期观日路12号102-402单元
- 代理机构: 厦门市精诚新创知识产权代理有限公司
- 代理商 何家富
- 主分类号: H04L67/02
- IPC分类号: H04L67/02 ; H04L67/60 ; H04L67/56 ; H04L9/40 ; G06F16/951
摘要:
本发明涉及一种基于代理的HTTP报文采集方法、终端设备及存储介质,该方法中包括:S1:构建HTTP报文代理模块,通过HTTP报文代理模块接收爬虫模块发送的HTTP请求报文;S2:判断HTTP报文库是否存在与接收的HTTP请求报文相同的HTTP请求报文,如果是,进入S4;否则,进入S3;S3:将HTTP请求报文转发至对应的爬取目标服务器,并接收HTTP响应报文,将HTTP响应报文转发至爬虫模块,同时将HTTP请求报文和HTTP响应报文存入HTTP报文库内,并记录关联关系;S4:从HTTP报文库获取HTTP请求报文关联的HTTP响应报文,并将其转发至爬虫模块。本发明从而避免了爬虫模块对不是由爬取目标服务器的内容更新而进行的重新采集,减轻了爬取目标服务器的负担,也避免了可能造成的网络虚拟财产损失。
公开/授权文献
- CN112995291A 一种基于代理的HTTP报文采集方法、终端设备及存储介质 公开/授权日:2021-06-18