一种基于代理的HTTP报文采集方法、终端设备及存储介质
摘要:
本发明涉及一种基于代理的HTTP报文采集方法、终端设备及存储介质,该方法中包括:S1:构建HTTP报文代理模块,通过HTTP报文代理模块接收爬虫模块发送的HTTP请求报文;S2:判断HTTP报文库是否存在与接收的HTTP请求报文相同的HTTP请求报文,如果是,进入S4;否则,进入S3;S3:将HTTP请求报文转发至对应的爬取目标服务器,并接收HTTP响应报文,将HTTP响应报文转发至爬虫模块,同时将HTTP请求报文和HTTP响应报文存入HTTP报文库内,并记录关联关系;S4:从HTTP报文库获取HTTP请求报文关联的HTTP响应报文,并将其转发至爬虫模块。本发明从而避免了爬虫模块对不是由爬取目标服务器的内容更新而进行的重新采集,减轻了爬取目标服务器的负担,也避免了可能造成的网络虚拟财产损失。
0/0