- 专利标题: 一种基于中间人的互联网数据采集方法及系统
-
申请号: CN201910909270.7申请日: 2019-09-25
-
公开(公告)号: CN110781367B公开(公告)日: 2023-10-20
- 发明人: 程学旗 , 史存会 , 胡耀康 , 朱运昌 , 俞晓明 , 刘悦
- 申请人: 中国科学院计算技术研究所
- 申请人地址: 北京市海淀区中关村科学院南路6号
- 专利权人: 中国科学院计算技术研究所
- 当前专利权人: 中国科学院计算技术研究所
- 当前专利权人地址: 北京市海淀区中关村科学院南路6号
- 代理机构: 北京律诚同业知识产权代理有限公司
- 代理商 祁建国; 张燕华
- 主分类号: G06F16/951
- IPC分类号: G06F16/951 ; G06F16/955
摘要:
本发明提出一种基于中间人的互联网数据采集方法及系统,包括:通过安装中间人代理证书至网页信息采集设备,建立网页信息采集设备的中间人,网页信息采集设备访问互联网中网页信息时,中间人代理网页信息采集设备的全部网络流量;中间人获取包含待采集网页URL正则表达式的采集任务,捕获全部网络流量中符合URL正则表达式的流量,作为中间流量,并将采集任务注入中间流量的HTML页面中,得到待解析页面并将其存入第一数据库;解析模块根据第一数据库中待解析页面的URL信息,将待解析页面分发给解析器实例进行解析,从中获取包含结构化数据的网页采集结果并将其存入第二数据库。本发明能够支持所有依靠集成浏览器内核功能来提供信息的应用的数据采集。
公开/授权文献
- CN110781367A 一种基于中间人的互联网数据采集方法及系统 公开/授权日:2020-02-11