网页数据采集装置及方法
    1.
    发明公开

    公开(公告)号:CN117828158A

    公开(公告)日:2024-04-05

    申请号:CN202410020784.8

    申请日:2024-01-05

    摘要: 本发明公开了一种网页数据采集装置及方法,该装置包括:任务配置模块、任务调度模块、采集模块和存储模块;所述任务配置模块,用于为用户提供可视化交互界面,以使用户通过所述可视化交互界面自定义采集任务脚本并配置任务调度信息;所述任务调度模块,用于根据所述任务调度信息为采集任务提供管理功能,所述管理功能包括:自动周期调度、单次调度、日志检查;所述采集模块,用于根据所述任务调试模块的触发基于所述采集任务脚本进行数据采集;所述存储模块,用于存储所述采集模块采集的数据。利用本发明方案,可以灵活方便地使用户实现多种网页数据的采集,满足不同场景下的网页数据采集需求。

    一种新闻话题数据挖掘方法、装置及存储介质

    公开(公告)号:CN117391071A

    公开(公告)日:2024-01-12

    申请号:CN202311639781.4

    申请日:2023-12-04

    摘要: 本申请公开了一种新闻话题数据挖掘方法、装置及存储介质,包括:采集新闻发稿量的时序数据,并通过预配置的时间窗口对时序数据进行划分;基于时间窗口的时间刻度,将时序数据转换为一维向量;计算一维向量的一阶差分向量;通过符号函数遍历一阶差分向量,生成趋势向量;从趋势向量的尾部进行遍历,根据预配置的修正规则对趋势向量中的零值进行修正;对修正后的趋势向量进行一阶差分计算,得到二阶差分值;根据二阶差分值对时序数据划分为多个独立的事件群;获取事件群中所有新闻的文本数据;将文本数据转换为TF‑IDF向量;对TF‑IDF向量进行基于密度的文本聚类,得到多个事件新闻群;通过NLP工具进行词频词性分析,生成对应的事件标题。

    一种新闻话题数据挖掘方法、装置及存储介质

    公开(公告)号:CN117391071B

    公开(公告)日:2024-02-27

    申请号:CN202311639781.4

    申请日:2023-12-04

    摘要: 本申请公开了一种新闻话题数据挖掘方法、装置及存储介质,包括:采集新闻发稿量的时序数据,并通过预配置的时间窗口对时序数据进行划分;基于时间窗口的时间刻度,将时序数据转换为一维向量;计算一维向量的一阶差分向量;通过符号函数遍历一阶差分向量,生成趋势向量;从趋势向量的尾部进行遍历,根据预配置的修正规则对趋势向量中的零值进行修正;对修正后的趋势向量进行一阶差分计算,得到二阶差分值;根据二阶差分值对时序数据划分为多个独立的事件群;获取事件群中所有新闻的文本数据;将文本数据转换为TF‑IDF向量;对TF‑IDF向量进行基于密度的文本聚类,得到多个事件新闻群;(56)对比文件Zhang Tingting 等.Multi-dimensiontopic mining based on hierarchicalsemantic graph model《.IEEE access》.2020,第8卷64820-64835.Tang Dan 等.The detection of low-rateDoS attacks using the SADBSCAN algorithm.《Information Sciences》.2021,第565卷229-247.

    一种图谱数据的处理方法、装置以及存储介质

    公开(公告)号:CN115757573A

    公开(公告)日:2023-03-07

    申请号:CN202211384184.7

    申请日:2022-11-07

    发明人: 丁洪鑫 汪榕 张瑶

    IPC分类号: G06F16/25 G06F16/22 G06F16/23

    摘要: 本申请公开了一种图谱数据的处理方法,包括:获取多源异构数据,对多源异构数据的类型进行判断;对多源异构数据中的结构化数据,根据预设的关联规则,对结构化数据中的字段直接进行关联,形成关联关系;对多源异构数据中的非结构化数据,判断其是否有元数据;若有元数据,则提取元数据,并使用元数据与其它数据集进行关联,形成关联关系;若没有元数据,则为非结构化数据配置元数据,并使用配置的元数据与其它数据集进行关联,形成关联关系;对关联关系的属性进行定义,并根据定义后的关联关系对多源异构数据进行结构化;以定义后的关联关系为连接,生成新的关系型数据,并将关系型数据导入图数据库中。

    前端智能拖拽引擎、建立数据处理流程的方法

    公开(公告)号:CN116954587A

    公开(公告)日:2023-10-27

    申请号:CN202311205042.4

    申请日:2023-09-19

    摘要: 本发明公开了一种前端智能拖拽引擎、建立数据处理流程的方法,该前端智能拖拽引擎包括:对应不同任务模式的组件库和操作语句库、以及流程模板库;所述组件库,用于提供构建数据处理流程的组件;所述流程模板库,用于提供构建数据处理流程的流程模板;所述操作语句库,用于提供对各组件及连接关系的操作语句;推荐功能单元,用于在用户建立数据处理流程过程中,实时检测当前在建数据处理流程与所述流程模板库中各流程模板的重合度,向用户推荐重合度大于设定值的流程模板。利用本发明方案,可以降低整套拖拽组件使用门槛,为前端数据处理流程的建立提供智能化辅助,提升效率及准确性。

    一种智能交通信息通信方法、系统及存储介质

    公开(公告)号:CN117671945A

    公开(公告)日:2024-03-08

    申请号:CN202311595520.7

    申请日:2023-11-27

    摘要: 本申请公开了本申请提供了一种智能交通信息通信方法、系统及存储介质,用于及时提供精准的交通信息。本申请方法包括:目标车辆的车载装置获取所述目标车辆的实时信息,并对所述实时信息进行预处理;车载装置将所述处理后的数据存入数据库,并通过跳频通信的方式传输至目标路侧装置;所述目标路侧装置将所述存入数据库的数据传输至中心控制器;所述中心控制器对所述存入数据库的数据进行分析和预测处理,获得预测数据并存入数据库,再推送至路侧装置;路侧装置将所述预测数据以跳频通信的方式推送至所述目标车辆或其他车辆的车载装置,以使得所述目标车辆或所述其他车辆的车载装置共享所述预测数据,并根据所述预测数据进行智能道路规划。

    一种图谱数据的处理方法、装置以及存储介质

    公开(公告)号:CN115757573B

    公开(公告)日:2023-11-14

    申请号:CN202211384184.7

    申请日:2022-11-07

    发明人: 丁洪鑫 汪榕 张瑶

    IPC分类号: G06F16/25 G06F16/22 G06F16/23

    摘要: 本申请公开了一种图谱数据的处理方法,包括:获取多源异构数据,对多源异构数据的类型进行判断;对多源异构数据中的结构化数据,根据预设的关联规则,对结构化数据中的字段直接进行关联,形成关联关系;对多源异构数据中的非结构化数据,判断其是否有元数据;若有元数据,则提取元数据,并使用元数据与其它数据集进行关联,形成关联关系;若没有元数据,则为非结构化数据配置元数据,并使用配置的元数据与其它数据集进行关联,形成关联关系;对关联关系的属性进行定义,并根据定义后的关联关系对多源异构数据进行结构化;以定义后的关联关系为连接,生成新的关系型数据,并将关系型数据导入图数据库中。

    前端智能拖拽引擎、建立数据处理流程的方法

    公开(公告)号:CN116954587B

    公开(公告)日:2023-12-19

    申请号:CN202311205042.4

    申请日:2023-09-19

    摘要: 本发明公开了一种前端智能拖拽引擎、建立数据处理流程的方法,该前端智能拖拽引擎包括:对应不同任务模式的组件库和操作语句库、以及流程模板库;所述组件库,用于提供构建数据处理流程的组件;所述流程模板库,用于提供构建数据处理流程的流程模板;所述操作语句库,用于提供对各组件及连接关系的操作语句;推荐功能单元,用于在用户建立数据处理流程过程中,实时检测当前在建数据处理流程与所述流程模板库中各流程模板的重合度,向用户推荐重合度大于设定值的流程模板。利用本发明方案,可以降低整套拖拽组件使用门槛,为前端数据处理流程的建立提供智能化辅助,提升效率及准确性。