-
公开(公告)号:CN105243159B
公开(公告)日:2019-06-25
申请号:CN201510713985.7
申请日:2015-10-28
Applicant: 福建亿榕信息技术有限公司
IPC: G06F16/958
Abstract: 本发明提供一种基于可视化脚本编辑器的分布式网络爬虫系统,包括:可视化脚本编辑器、分布式消息队列、任务调度模块、网页抓取模块、内容处理模块、以及结果存储模块;根据用户通过可视化界面进行输入,系统自动生成元数据提取脚本,可以识别目标站点的结构,高效的抓取特定的数据,由任务调度模块创建分派任务,网页抓取模块负责抓取页面,内容处理模块调取对应脚本将页面转换为元数据集,最后统一处理,通过结果存储模块进行存储。本发明能够大幅提高针对特定站点数据的爬取效率,减少用户劳动强度,节省系统资源,并拥有良好的可扩展性和伸缩性,适用于所有类型的互联网站点。
-
公开(公告)号:CN106779087B
公开(公告)日:2019-02-22
申请号:CN201611075837.8
申请日:2016-11-30
Applicant: 福建亿榕信息技术有限公司 , 国家电网公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC: G06N20/00
Abstract: 本发明提供一种通用机器学习数据分析平台,包括界面模块、数据存储模块、预处理模块、特征提取模块、特征转换模块、算法模块以及选择优化模块;所述特征提取模块根据用户设定的特征参数从所述待分析数据中提取所述特征参数;所述特征转换模块用于将用户设定的特征转换成用户所需的表示形式;所述算法模块包含多种算法模型供用户选择以及供用户构建模型,用户构建至少一组模型;所述选择优化模块从构建好的模型中选出最优的模型和最优的参数,然后保存所述最优的模型;上述各模块产生的数据均存储于所述数据存储模块中。本发明用户可以自由组合使用各个模块与算法模型,还可以建立复合模型,快速迭代开发出新型分析模型,大大提高工作效率。
-
公开(公告)号:CN106779087A
公开(公告)日:2017-05-31
申请号:CN201611075837.8
申请日:2016-11-30
Applicant: 福建亿榕信息技术有限公司 , 国家电网公司 , 国网信息通信产业集团有限公司 , 国网信通亿力科技有限责任公司
IPC: G06N99/00
CPC classification number: G06N99/005
Abstract: 本发明提供一种通用机器学习数据分析平台,包括界面模块、数据存储模块、预处理模块、特征提取模块、特征转换模块、算法模块以及选择优化模块;所述特征提取模块根据用户设定的特征参数从所述待分析数据中提取所述特征参数;所述特征转换模块用于将用户设定的特征转换成用户所需的表示形式;所述算法模块包含多种算法模型供用户选择以及供用户构建模型,用户构建至少一组模型;所述选择优化模块从构建好的模型中选出最优的模型和最优的参数,然后保存所述最优的模型;上述各模块产生的数据均存储于所述数据存储模块中。本发明用户可以自由组合使用各个模块与算法模型,还可以建立复合模型,快速迭代开发出新型分析模型,大大提高工作效率。
-
公开(公告)号:CN105243159A
公开(公告)日:2016-01-13
申请号:CN201510713985.7
申请日:2015-10-28
Applicant: 福建亿榕信息技术有限公司
IPC: G06F17/30
CPC classification number: G06F16/986
Abstract: 本发明提供一种基于可视化脚本编辑器的分布式网络爬虫系统,包括:可视化脚本编辑器、分布式消息队列、任务调度模块、网页抓取模块、内容处理模块、以及结果存储模块;根据用户通过可视化界面进行输入,系统自动生成元数据提取脚本,可以识别目标站点的结构,高效的抓取特定的数据,由任务调度模块创建分派任务,网页抓取模块负责抓取页面,内容处理模块调取对应脚本将页面转换为元数据集,最后统一处理,通过结果存储模块进行存储。本发明能够大幅提高针对特定站点数据的爬取效率,减少用户劳动强度,节省系统资源,并拥有良好的可扩展性和伸缩性,适用于所有类型的互联网站点。
-
-
-