一种数据查询的方法和装置

    公开(公告)号:CN104765790B

    公开(公告)日:2019-09-20

    申请号:CN201510131306.5

    申请日:2015-03-24

    IPC分类号: G06F16/245

    摘要: 本发明公开了一种数据查询的方法和装置,属于计算机技术领域。所述方法包括:基于预设编码算法,确定数据库中的数值型数据对应的编码;根据数据库中各数值型数据对应的编码,建立位向量查询树;当接收到携带有数值范围条件的查询请求时,基于所述预设编码算法,分别确定所述数值范围条件中上限的数值型数据对应的第一编码以及下限的数值型数据对应的第二编码;根据所述位向量查询树,以及所述第一编码和所述第二编码进行按位与处理得到的第三编码,查询所述数据库中符合所述查询请求的数值型数据。采用本发明,可以提高数据查询的效率。

    数据的修复方法及装置
    2.
    发明授权

    公开(公告)号:CN105094209B

    公开(公告)日:2018-12-28

    申请号:CN201410201689.4

    申请日:2014-05-13

    IPC分类号: G06F1/14 G06F17/30

    摘要: 本发明公开了一种数据的修复方法及装置,属于信息技术领域。方法包括:根据资源描述框架RDF知识库中的数据获取RDF图数据及邻居步数;根据RDF图数据及邻居步数确定至少一个频繁图结构;挖掘每个频繁图结构中包含语义的依赖关系;根据包含语义的依赖关系检测RDF图数据中的异常数据,并对异常数据进行修复。本发明通过根据RDF图数据及邻居步数确定至少一个频繁图结构,并根据挖掘到的每个频繁图结构中包含语义的依赖关系检测RDF图数据中的异常数据,使得检测到的异常数据的错误类型较多,进而通过对检测到的异常数据进行修复,扩大了数据的修复范围。

    数据的修复方法及装置
    3.
    发明公开

    公开(公告)号:CN105094209A

    公开(公告)日:2015-11-25

    申请号:CN201410201689.4

    申请日:2014-05-13

    IPC分类号: G06F1/14 G06F17/30

    摘要: 本发明公开了一种数据的修复方法及装置,属于信息技术领域。方法包括:根据资源描述框架RDF知识库中的数据获取RDF图数据及邻居步数;根据RDF图数据及邻居步数确定至少一个频繁图结构;挖掘每个频繁图结构中包含语义的依赖关系;根据包含语义的依赖关系检测RDF图数据中的异常数据,并对异常数据进行修复。本发明通过根据RDF图数据及邻居步数确定至少一个频繁图结构,并根据挖掘到的每个频繁图结构中包含语义的依赖关系检测RDF图数据中的异常数据,使得检测到的异常数据的错误类型较多,进而通过对检测到的异常数据进行修复,扩大了数据的修复范围。

    一种数据查询的方法和装置

    公开(公告)号:CN104765790A

    公开(公告)日:2015-07-08

    申请号:CN201510131306.5

    申请日:2015-03-24

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种数据查询的方法和装置,属于计算机技术领域。所述方法包括:基于预设编码算法,确定数据库中的数值型数据对应的编码;根据数据库中各数值型数据对应的编码,建立位向量查询树;当接收到携带有数值范围条件的查询请求时,基于所述预设编码算法,分别确定所述数值范围条件中上限的数值型数据对应的第一编码以及下限的数值型数据对应的第二编码;根据所述位向量查询树,以及所述第一编码和所述第二编码进行按位与处理得到的第三编码,查询所述数据库中符合所述查询请求的数值型数据。采用本发明,可以提高数据查询的效率。

    标注数据采集方法、装置、电子设备及存储介质

    公开(公告)号:CN111522914B

    公开(公告)日:2023-05-12

    申请号:CN202010309747.0

    申请日:2020-04-20

    IPC分类号: G06F16/33 G06F16/332

    摘要: 本发明提供了一种标注数据采集方法、装置、电子设备及存储介质,通过获取第一输入数据,其中,第一输入数据用于表征待标注数据中的至少一个属性,再利用预设问答算法,并根据第一输入数据以及待标注数据生成第一输出数据,建立待标注数据与问答逻辑的主导因素之间的关联,以利用第一输出数据来体现问答逻辑的起始点,预设问答算法根据问答逻辑的起始点推导问答逻辑的结果即第一输出数据,再利用相似度等指标评判此推导结果,通过交互问答给予问答逻辑的中间关键信息和问答逻辑的可靠结果,实现了把问答逻辑全过程进行了标注采集,以此对智能算法模型进行优化训练,进一步达到了使智能算法模型实现性能优化的目标。

    一种中文事件抽取方法
    6.
    发明授权

    公开(公告)号:CN107122416B

    公开(公告)日:2021-07-06

    申请号:CN201710209305.7

    申请日:2017-03-31

    申请人: 北京大学

    摘要: 本发明公开了一种中文事件抽取方法。本方法为:1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;3)根据上述得到的事件元素、事件触发词及事件类型,得到完整的事件结构,完成事件抽取。本发明解决了中文事件抽取中事件触发词和文本中的词语不完全匹配的问题,并提高了中文事件抽取的准确性。

    一种面向多源网络百科的知识库构建方法

    公开(公告)号:CN107239481B

    公开(公告)日:2021-03-12

    申请号:CN201710236165.2

    申请日:2017-04-12

    申请人: 北京大学

    摘要: 本发明公开了一种面向多源网络百科的知识库构建方法。本方法为:1)从设定的若干网络百科抓取页面,并从抓取的每一页面中抽取页面的类别信息;2)基于类别信息构建类别树,并将类别信息和类别树对应,形成知识库的类别体系;提取每个网络百科对应页面的的别名信息构建该网络百科的概念词典;3)对抓取的页面进行去重,得到知识库的概念集合;4)从页面集合中每一页面的页面信息框和正文中抽取三元组信息;5)将三元组中的客体转换成标准格式,然后根据得到的标准化三元组和类别体系建立知识库。本发明不仅可以输出实体的类别体系,还可以对三元组中的实体进行链接,得到高质量的三元组知识,适用于多个网络百科混合生成知识库的需求。

    标注数据采集方法、装置、电子设备及存储介质

    公开(公告)号:CN111522914A

    公开(公告)日:2020-08-11

    申请号:CN202010309747.0

    申请日:2020-04-20

    IPC分类号: G06F16/33 G06F16/332

    摘要: 本发明提供了一种标注数据采集方法、装置、电子设备及存储介质,通过获取第一输入数据,其中,第一输入数据用于表征待标注数据中的至少一个属性,再利用预设问答算法,并根据第一输入数据以及待标注数据生成第一输出数据,建立待标注数据与问答逻辑的主导因素之间的关联,以利用第一输出数据来体现问答逻辑的起始点,预设问答算法根据问答逻辑的起始点推导问答逻辑的结果即第一输出数据,再利用相似度等指标评判此推导结果,通过交互问答给予问答逻辑的中间关键信息和问答逻辑的可靠结果,实现了把问答逻辑全过程进行了标注采集,以此对智能算法模型进行优化训练,进一步达到了使智能算法模型实现性能优化的目标。

    一种结合正则表达式和神经网络的自然语言任务处理方法和装置

    公开(公告)号:CN110909864A

    公开(公告)日:2020-03-24

    申请号:CN201911006241.6

    申请日:2019-10-22

    申请人: 北京大学

    IPC分类号: G06N3/04 G06F16/35

    摘要: 本发明公开一种结合正则表达式和神经网络模型的自然语言任务处理方法和装置。本方法为:1)给定一个自然语言相关的任务,针对该任务涉及的具体领域,获取正则表达式形式的领域知识,得到正则表达式集合;2)针对该任务选择一个基础的能够解决该任务的神经网络模型;3)在神经网络模型的训练过程中引入正则表达式集合中蕴含的领域知识,从而提升神经网络模型针对该任务的性能,正则表达式和神经网络模型的结合可以在不同层面上进行,包括输入层,模块层和输出层。本发明能够基于正则表达式形式的领域知识对神经网络模型的特定模块进行微调,并且辅助神经网络的训练,从而提升神经网络模型在该任务上的性能。

    一种中文事件抽取方法
    10.
    发明公开

    公开(公告)号:CN107122416A

    公开(公告)日:2017-09-01

    申请号:CN201710209305.7

    申请日:2017-03-31

    申请人: 北京大学

    IPC分类号: G06F17/30 G06F17/27

    摘要: 本发明公开了一种中文事件抽取方法。本方法为:1)对待抽取的中文文本进行实体识别,将识别出来的实体作为事件元素的候选词;对该中文文本逐字进行标注,然后根据标注结果,结合标注模式,识别该中文文本中的事件触发词以及该中文文本所描述的事件类型;2)将该中文文本、事件元素的候选词、事件触发词以及事件类型输入到分类模型中,判断每一所述候选词是否为真实的事件元素;3)根据上述得到的事件元素、事件触发词及事件类型,得到完整的事件结构,完成事件抽取。本发明解决了中文事件抽取中事件触发词和文本中的词语不完全匹配的问题,并提高了中文事件抽取的准确性。