一种面向非结构化表格文档的实体与关系抽取方法

    公开(公告)号:CN111274327B

    公开(公告)日:2021-08-03

    申请号:CN202010021995.5

    申请日:2020-01-09

    IPC分类号: G06F16/28 G06F16/36

    摘要: 一种面向非结构化表格文档的实体与关系抽取方法,将非结构化表格文档划分为离散的单值表格和多值表格;采用表格位置特征和文本规则从单值表格中抽取出知识,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式;利用表格位置和文本规则从多值表格中抽取出知识,对字符串进行语义分割,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式。本发明给出的实体与关系抽取方法能够将非结构化表格文档的信息处理成结构化数据,并准确的抽取出其中的实体、关系、属性及属性值,形成三元组集合,为进一步构建知识图谱的工作奠定了良好的基础。

    一种面向非结构化表格文档的实体与关系抽取方法

    公开(公告)号:CN111274327A

    公开(公告)日:2020-06-12

    申请号:CN202010021995.5

    申请日:2020-01-09

    IPC分类号: G06F16/28 G06F16/36

    摘要: 一种面向非结构化表格文档的实体与关系抽取方法,将非结构化表格文档划分为离散的单值表格和多值表格;采用表格位置特征和文本规则从单值表格中抽取出知识,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式;利用表格位置和文本规则从多值表格中抽取出知识,对字符串进行语义分割,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式。本发明给出的实体与关系抽取方法能够将非结构化表格文档的信息处理成结构化数据,并准确的抽取出其中的实体、关系、属性及属性值,形成三元组集合,为进一步构建知识图谱的工作奠定了良好的基础。

    基于自然语言的搜索方法和系统
    3.
    发明公开

    公开(公告)号:CN117194607A

    公开(公告)日:2023-12-08

    申请号:CN202310992091.0

    申请日:2023-08-08

    发明人: 谭卓伟 邓海超

    摘要: 本发明实施例涉及人工智能技术领域,具体公开了基于自然语言的搜索方法及系统,在基于自然语言处理从搜索文本中确定原始搜索对象关键词和原始搜索意图关键词后,扩充得到目标搜索对象关键词和目标搜索意图关键词,从图像库中确定出对象标签与目标搜索对象关键词匹配的图像得到第一候选图像集;从第一候选图像集中确定出对象描述标签与目标搜索意图关键词匹配的图像得到第二候选图像集,采用原始搜索对象关键词、原始搜索意图关键词、对象标签以及对象描述标签计算第二候选图像集中图像的分数,将第二候选图像集中分数最高的N张图像作为搜索结果返回用户,实现了用户的搜索意图分析,根据搜索意图计算图像分数,搜索结果更为符合用户的搜索意图。