一种海量数据处理方法、装置、介质及电子设备

    公开(公告)号:CN113779343B

    公开(公告)日:2024-10-18

    申请号:CN202111098143.7

    申请日:2021-09-18

    发明人: 王涛 刘立兰 王梅

    IPC分类号: G06F16/906 G06F16/904

    摘要: 本申请实施例公开了一种海量数据处理方法、装置、介质及电子设备。该方法包括:根据预先确定的标签规则对海量数据进行处理,得到标签数据;其中,所述海量数据用于表征数据量较大的数据;所述标签规则用于表征对所述海量数据进行打标的规则;通过归并模型对所述标签数据进行分类处理,得到分类数据,并对所述分类数据进行压缩处理,得到目标数据,以用于对所述目标数据进行对比处理;其中,所述归并模型是根据预先配置的模型文件生成的。本技术方案,能够提高海量数据处理效率高,优化大数据应用分析性能。

    一种标签实体处理方法、装置、计算机设备和存储介质

    公开(公告)号:CN110765778B

    公开(公告)日:2023-08-29

    申请号:CN201911013609.1

    申请日:2019-10-23

    摘要: 本发明公开了一种标签实体处理方法、装置、计算机设备和存储介质,该方法包括:在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。本发明实施例的技术方案解决了离线处理标签实体而导致数据量庞大、数据类型复杂的问题,实现了标签实体的自动识别,保证了标签实体打标的实时性和有效性,提高了政府业务的处理能力。

    数据可信度评估方法、装置、设备和存储介质

    公开(公告)号:CN109472005B

    公开(公告)日:2023-08-04

    申请号:CN201811325927.7

    申请日:2018-11-08

    IPC分类号: G06F17/18

    摘要: 本发明实施例公开了一种数据可信度评估方法、装置、设备和存储介质。该方法包括:依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。本发明实施例通过数据间的关联关系,实现了多源数据融合过程中对相同主体关联的属性值的可信度进行有效评估,提高多源数据融合过程中数据冲突时对数据可信度判断的决策力和效率。

    一种分类检测方法、装置、设备及存储介质

    公开(公告)号:CN111538813A

    公开(公告)日:2020-08-14

    申请号:CN202010338915.9

    申请日:2020-04-26

    摘要: 本发明公开了一种分类检测方法、装置、设备及存储介质。该方法包括:获取与目标实体对应的目标数据和目标标签;所述目标数据包括所述目标实体的第一属性信息;所述目标标签为所述目标实体当前标记的标签;获取与所述第一属性信息关联的分类贡献值;所述分类贡献值用于衡量所述第一属性信息对所述目标实体分类的贡献程度;根据所述分类贡献值确定所述目标实体的分类结果;根据所述目标实体的分类结果和所述目标标签确定所述目标实体的分类是否正确。通过上述方法可以达到提高实体分类的准确性的有益效果,克服了现有技术中实体分类的错误率较高的问题。

    数据集自动匹配方法、装置、设备和计算机可读存储介质

    公开(公告)号:CN109543772A

    公开(公告)日:2019-03-29

    申请号:CN201811467385.7

    申请日:2018-12-03

    IPC分类号: G06K9/62

    摘要: 本发明公开了一种数据集自动匹配方法、装置设备和计算机可读存储介质,一种数据集自动匹配方法包括:将待匹配数据表,按照预设行数、列数和每列字符宽度进行随机采样,得到待匹配数据表采样;对待匹配数据表采样中的字符进行编码为图像像素,得到待匹配数据表采样所对应的待匹配图像;将待匹配图像输入训练后的图像分类模型,确定与待匹配图像匹配度最高的目标数据集,作为待匹配数据表所匹配的目标数据集,图像分类模型是对已匹配的历史数据集中的数据表匹配记录进行采样后,将采样后的字符编码转换为图像后训练得到的。本发明公开的数据集自动匹配方法、装置设备和计算机可读存储介质,用于提高数据集匹配的效率和准确性。

    数据可信度评估方法、装置、设备和存储介质

    公开(公告)号:CN109472005A

    公开(公告)日:2019-03-15

    申请号:CN201811325927.7

    申请日:2018-11-08

    IPC分类号: G06F17/18

    摘要: 本发明实施例公开了一种数据可信度评估方法、装置、设备和存储介质。该方法包括:依据至少两个数据源中相同主体关联的属性值信息,确定各数据源中各主体关联的属性值的可信度;依据各数据源中各主体关联的属性值的可信度,确定各数据源的可信度;依据各数据源中各主体关联的属性值的可信度以及各数据源的可信度,确定至少两个数据源进行数据融合后,相同主体关联的属性值的可信度。本发明实施例通过数据间的关联关系,实现了多源数据融合过程中对相同主体关联的属性值的可信度进行有效评估,提高多源数据融合过程中数据冲突时对数据可信度判断的决策力和效率。

    一种室内测距方法和装置

    公开(公告)号:CN108107421A

    公开(公告)日:2018-06-01

    申请号:CN201711431119.4

    申请日:2017-12-26

    IPC分类号: G01S13/08

    摘要: 本发明实施例公开了一种室内测距方法和装置。所述方法包括:通过基于区域面积差的NLOS误差抑制算法获得消除NLOS误差后的待测距点到各个节点的重构距离值;采用所述重构距离值对TDOA的测量距离值进行重构,并通过Chan算法进行测距求解,得到所述待测距点到各个节点的距离值。本发明实施例可以消除NLOS环境下的NLOS误差,提高测距精度。

    基于OSGI的IP地址获取方法和装置

    公开(公告)号:CN108011877A

    公开(公告)日:2018-05-08

    申请号:CN201711226790.5

    申请日:2017-11-29

    IPC分类号: H04L29/06 H04L29/12

    摘要: 本发明公开了一种基于OSGI的IP地址获取方法和装置。本发明基于OSGI的IP地址获取方法,适用于服务器对请求方设备进行实时监控的过程中,所述方法包括:在开放服务网关协议OSGI框架下,所述服务器在所述OSGI框架中集成springMVC;所述服务器接收所述请求方设备发送的业务请求,所述业务请求包括所述请求方设备的网络协议IP地址;所述服务器根据继承自所述springMVC的类将所述业务请求保存至指定的内存中;所述服务器通过调用预先生成的IP地址获取接口从所述指定的内存中提取得到所述IP地址。本发明实现请求方设备的IP地址的获取,可以及时根据请求方设备的IP地址对请求方的行为进行高效且合理的监管和流量控制。

    一种传输数据的方法以及装置

    公开(公告)号:CN107846319A

    公开(公告)日:2018-03-27

    申请号:CN201711145939.7

    申请日:2017-11-17

    IPC分类号: H04L12/24 H04L29/06 H04L29/08

    摘要: 本发明实施例公开了一种传输数据的方法以及装置,客户端根据已保存的配置信息,逐个使用配置信息中的标识创建套接字,链接服务器;以使得所述服务器根据通信协议中的消息头的信息,将采集到的数据按指定长度逐条发送到所述客户端;所述客户端将接收到的信息保存到相应日志类型命名的文件中。可以准确的展示集群数据量统计信息和数据集统计数据,并且可以对各集群运行情况、处理速度和硬件资源占用情况进行实时监控。

    多径时延估计的方法、装置、计算机设备和可读存储介质

    公开(公告)号:CN107843885A

    公开(公告)日:2018-03-27

    申请号:CN201711026736.6

    申请日:2017-10-27

    IPC分类号: G01S7/41

    摘要: 本发明公开了一种多径时延估计的方法、装置、计算机设备和可读存储介质,通过向被测物体发送测距探测信号,并接收所述测距探测信号遇到所述被测物体后返回的探测反射信号;提取所述探测反射信号中各码片中的第一个采样点信号,并对提取所述各码片中的第一个采样点信号进行解扩处理;将与各码片中的第一个采样点信号对应的解扩信号分别与所述测距探测信号进行相关运算,并根据相关运算结果确定所述测距探测信号在传输路径中的多径时延估计值。本发明通过采用每个码片的第一个采样点信号,避免了片外多径和片内多径的干扰,实现了快速而准确的获取时延估计和被测物体距离。