发明公开
- 专利标题: 基于网络爬虫技术的电力营商环境信息采集系统
-
申请号: CN202111612380.0申请日: 2021-12-27
-
公开(公告)号: CN114443926A公开(公告)日: 2022-05-06
- 发明人: 燕跃豪 , 宋建辉 , 鲍薇 , 孙晨光 , 李连卷 , 原征 , 韩丽 , 陈起
- 申请人: 国网河南省电力公司郑州供电公司 , 河南煜晖能源科技有限公司 , 郑州大学 , 国家电网有限公司
- 申请人地址: 河南省郑州市淮河西路19号; ; ;
- 专利权人: 国网河南省电力公司郑州供电公司,河南煜晖能源科技有限公司,郑州大学,国家电网有限公司
- 当前专利权人: 国网河南省电力公司郑州供电公司,河南煜晖能源科技有限公司,郑州大学,国家电网有限公司
- 当前专利权人地址: 河南省郑州市淮河西路19号; ; ;
- 主分类号: G06F16/951
- IPC分类号: G06F16/951 ; G06F16/955 ; G06F16/958
摘要:
本发明公开了一种基于网络爬虫技术的电力营商环境信息采集系统,包括信息采集模块、网页处理及下载模块、数据储存和展示模块,信息采集模块是整个爬虫系统实现的基础,输入关键词,它就会在模拟浏览器向万维网发送HTTP请求,检索包含这些关键字的信息,信息采集模块获得的只包含所需要采集网页的标题和链接,为了查看数据,需要对网页进行处理和下载,将下载下来的HTML文件装换为PDF文件,文件转换使用Adobe Acrobat DC软件完成。本发明可以根据电力从业者的使用要求来制定不同的爬取要求,根据使用者输入的关键字,向互联网发送请求,找到相关的信息的URL,然后在对这些URL进行处理,实现以高效便捷的方式爬取需要的相关数据,以便显著提高爬虫的速度,具有很好的推广应用价值。