一种数据处理方法及装置
    1.
    发明公开

    公开(公告)号:CN114387599A

    公开(公告)日:2022-04-22

    申请号:CN202111517670.7

    申请日:2021-12-13

    IPC分类号: G06V30/148 G06F40/289

    摘要: 本发明公开了一种数据处理方法及装置,可以获得待处理的字符串,待处理的字符串中包括已知字符和至少一个待识别字符,各待识别字符均存在至少两个相似字符;确定至少一个组合字符串,各组合字符串均是由已知字符和各待识别字符分别对应的一个相似字符经过有序组合而生成的;获得各组合字符串的分词信息;将分词数最少的分词信息确定为待处理分词信息;如果待处理分词信息的数量为多个,则确定各待处理分词信息中的分词匹配程度;将分词匹配程度最高的待处理分词信息确定为目标分词信息;将目标分词信息对应的组合字符串确定为正确字符串;基于正确字符串,确定待处理的字符串中的各待识别字符。本发明可以有效提高对文本的整体识别率。

    一种应用于频繁子图查询的频繁子图索引方法及装置

    公开(公告)号:CN113722551A

    公开(公告)日:2021-11-30

    申请号:CN202111055107.2

    申请日:2021-09-09

    IPC分类号: G06F16/901 G06F16/903

    摘要: 本发明公开了一种应用于频繁子图查询的频繁子图索引方法及装置,确定频繁子图集,将频繁子图集划范围各个图集块,为各个图集块建立外存索引;为频繁子图中的各个频繁子图建立内存索引,将各个内存索引存入内存中,将各个内存索引、外存索引和各个图集块存入外存中;在接收对目标图的查询请求的情况下,判断目标图是否为频繁子图;若是,在内存中确定所述目标图的目标内存索引,基于目标内存索引在外存中确定目标图所属目标图集块,获取目标图集块的目标外存索引;基于目标内存索引和目标外存索引为所述目标图建立目标连接。在对目标图进行查询过程中,基于内存索引和外存索引实现了对目标图的查询,不需要提取目标图的特征,提高了查询的速度。

    基于知识图谱的数据存储方法和装置

    公开(公告)号:CN113779178A

    公开(公告)日:2021-12-10

    申请号:CN202111068202.6

    申请日:2021-09-13

    摘要: 本申请提供了一种基于知识图谱的数据存储方法和装置,该方法包括:获得待存储的能源物资供应数据,能源物资供应数据包括:作为供应能源物资的设备的信息;确定能源物资供应数据所涉及到的至少一台设备;针对每台设备,从能源物资供应数据中抽取出设备的至少一个维度的设备属性以及设备属性的属性取值;以设备和设备属性为实体,以设备属性的属性取值为实体关系,结合抽取出的各设备的设备属性以及设备属性的属性取值,构建表示能源物资供应数据的知识图谱;在图数据库中存储知识图谱。本申请的方案可以实现更为合理的存储能源物资供应所涉及到的数据,并有利于提高相关数据的查询效率。

    一种基于聚类的表格重构方法及系统

    公开(公告)号:CN113688684A

    公开(公告)日:2021-11-23

    申请号:CN202110843215.X

    申请日:2021-07-26

    IPC分类号: G06K9/00 G06K9/62 G06F40/174

    摘要: 本发明公开了一种基于聚类的表格重构方法及系统,该方法包括:S100:获取包括表格的PDF图片;S200:提取PDF图片中的横线和竖线,分别生成横线图片和竖线图片;S300:基于横线图片和竖线图片提取横线和竖线的交叉点;S400:对交叉点进行基于位置的聚类,基于聚类结果对表格进行分离;S500:提取单个表格所包含的交叉点,对交叉点进行去抖处理;S600:基于广度遍历思想,在交叉点间进行路径游走,重构表格。本发明能够从包括不规则表格的图片中识别并重构表格,相比于现有的表格重构方法,可提升表格重构精度,并可有效解决图片中可能会出现的表格扭曲问题,对不规则表格的重构尤其适用。

    一种用于意图识别的词义角色标注方法及系统

    公开(公告)号:CN113688627A

    公开(公告)日:2021-11-23

    申请号:CN202111069148.7

    申请日:2021-09-13

    摘要: 本发明公开了一种用于意图识别的词义角色标注方法及系统,方法包括:输入句子序列、谓词序列、谓词上下文和谓词上下文区域标记;将谓词序列和谓词上下文扩展为与句子序列长度相同的序列;将句子序列、谓词序列、谓词上下文和谓词上下文区域标记转换为词向量序列;将句子序列、谓词序列、谓词上下文和谓词上下文区域标记的词向量序列输入双向LSTM模型;通过双向LSTM模型学习输入序列的特征表示,得到新的特征表示序列;将新的特征表示序列输入条件随机场;通过条件随机场对新的特征表示序列进行标注,得到标注结果。本发明能够有效的实现自动词义角色标注,减少意图识别中构建词义标注语料库的时间和成本。

    基于正则路径查询的搜索系统

    公开(公告)号:CN113326284B

    公开(公告)日:2021-10-01

    申请号:CN202110883483.4

    申请日:2021-08-03

    摘要: 本发明公开了基于正则路径查询的搜索系统,包括:数据库构建模块,用来对RDF数据图进行哈希编码,获得哈希值数据图;再以哈希值数据图的谓词作为key,以三元组作为value,使用key‑value分布式存储方式对哈希值数据图进行存储,获得克林闭包特征数据形式的key‑value数据图;遍历key‑value数据图,标记其中存在克林闭包的谓词及克林闭包谓词对应的三元组簇,将递归形式的三元组簇以递归树结构存储;选择度计算模块,用来基于递归树计算谓词的静态选择度以及两个谓词之间的连接选择度;搜索模块,用来在接收到查询语句时在数据库中进行搜索。本发明可获得查询路路径,可有效提高正则路径查询问题的效率,适合广泛应用。