百科知识图谱动态更新方法、装置、设备及介质

    公开(公告)号:CN115658931B

    公开(公告)日:2023-04-07

    申请号:CN202211681737.5

    申请日:2022-12-27

    Applicant: 清华大学

    Abstract: 本申请涉及计算机技术领域,特别涉及一种百科知识图谱动态更新方法、装置、设备及介质,其中,包括:获取百科知识图谱的待更新数据列表,其中,待更新数据列表包括待更新词条的页面文本和/或词条简介中链接的页面文本;根据预设更新周期遍历待更新数据列表,抽取待更新数据列表中页面文本的预设关键信息,基于预设关键信息更新百科知识图谱中三元组,得到更新结果;对更新结果进行结构化,得到更新后的百科知识图谱,并基于更新后的百科知识图谱更新数据库中存储的百科知识图谱。由此,解决了相关技术中需人工手动修改审核更新,无法自动更新和维护百科知识图谱,导致更新效率较低、维护成本较高等问题。

    基于故事续写和动态知识库的对话生成方法及系统

    公开(公告)号:CN115827838A

    公开(公告)日:2023-03-21

    申请号:CN202211475495.4

    申请日:2022-11-23

    Abstract: 本申请提出一种基于故事续写和动态知识库的对话生成方法及系统,该方法包括:获取用户输入的初始故事,并从初始故事中确定对话角色;构建知识库,从初始故事中抽取出与对话角色相关的知识存入知识库,并获取与知识库中已有知识相关的外部补充知识,以对知识库进行更新;基于更新后的知识库中的知识和初始故事,生成与用户交互的对话,并获取用户返回的对话;抽取对话内容中的事件知识,并基于初始故事和事件知识进行故事续写,将续写后的故事存入知识库;基于续写后的故事,循环进行知识库的更新、与用户的交互对话和故事续写,直至对话结束。该方法基于动态知识库和角色故事续写的框架生成对话,提高了与AI对话的拟真度和趣味性。

    故事脉络构建方法、装置、电子设备和存储介质

    公开(公告)号:CN115033668B

    公开(公告)日:2022-11-11

    申请号:CN202210965268.3

    申请日:2022-08-12

    Applicant: 清华大学

    Abstract: 本发明涉及自然语言处理技术领域,提供一种故事脉络构建方法、装置、电子设备和存储介质,包括:获取待构建脉络的新闻集合;基于关系检测模型,对新闻集合中的每两个新闻进行脉络关系检测,得到每两个新闻之间的脉络关系检测结果;基于每两个新闻之间的脉络关系检测结果,构建新闻集合对应的故事脉络;关系检测模型基于正样本对和负样本对训练得到,正样本对基于话题相同、时间相邻且事件不同的样本新闻确定,负样本对基于话题相同且时间间隔的样本新闻和/或话题不同的样本新闻确定,样本新闻的话题和事件基于聚类得到。本发明在无需人工参与的情况下,提高了数据集构建的效率和可靠性,扩张了数据集规模,保障了故事脉络构建的可靠性和准确性。

    一种为中英文单词对预测义原树的方法及系统

    公开(公告)号:CN112579794B

    公开(公告)日:2022-11-11

    申请号:CN202011565924.8

    申请日:2020-12-25

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种为中英文单词对预测义原树的方法及系统,包括:获取待预测单词对,以及所述待预测单词对应的类别义原;基于已知的预设义原集合和语义关系集合,和所述待预测单词对应的类别义原,采用预设义原树生成算法为所述待预测单词对预测生成义原树。本发明实施例通过已知的义原知识库,给定单词对的类别义原信息,为给定单词对预测义原树,实现了自动预测义原树,相比人工手动标注义原树需要花费大量的时间和成本,具有更高效和更准确的特点。

    问答推理方法及装置
    55.
    发明公开

    公开(公告)号:CN114817512A

    公开(公告)日:2022-07-29

    申请号:CN202210738644.5

    申请日:2022-06-28

    Applicant: 清华大学

    Abstract: 本发明涉及人工智能技术领域,提供一种问答推理方法及装置,其中方法包括:确定推理目标问题的答案所需的至少一个算子;针对至少一个算子中至少部分需要访问知识库的算子,基于知识库中预先构建的知识元素的倒排索引结构,访问知识库,以得到算子的执行结果;基于至少一个算子的执行结果,得到答案。如此解决现有技术中推理引擎的推理效率不高的缺陷,由于确定的推理目标问题的答案所需的至少一个算子,能够展示出推理目标问题的答案的过程,透明可解释,并且,由于针对至少部分需要访问知识库的算子,基于知识库中预先构建的知识元素的倒排索引结构,访问知识库,以得到算子的执行结果,提高了算子的执行速度,进而提高了答案的推理效率。

    一种旅游知识图谱模型确定方法及装置

    公开(公告)号:CN114036317A

    公开(公告)日:2022-02-11

    申请号:CN202111372439.3

    申请日:2021-11-18

    Applicant: 清华大学

    Abstract: 本发明提供一种旅游知识图谱模型确定方法及装置。其中,该方法包括:从预设的旅游数据源获取相应的旅游知识数据;基于所述旅游知识数据进行概念层建模确定相应的旅游本体;基于所述旅游本体进行实例层建模得到旅游知识图谱模型。本发明提供的旅游知识图谱模型确定方法,能够通过分别构建概念层和实例层来定义面向旅游路径规划的旅游本体和旅游路径实例,丰富旅游知识图谱模型包含内容,以提高查询旅游路径和景点信息的准确度,从而提升用户的使用体验。

    一种事件抽取方法、相关装置、设备及存储介质

    公开(公告)号:CN113761122A

    公开(公告)日:2021-12-07

    申请号:CN202110546916.7

    申请日:2021-05-19

    Abstract: 本申请实施例公开了一种事件抽取方法、相关装置、设备及存储介质,用于将句级自然语言转化为结点和边,再将结点和边转化为语义特征来进行事件抽取,能够保证获取事件的精度。本申请实施例方法包括:获取待处理文本;根据待处理文本生成抽象语义表示,抽象语义表示包括与词语一一对应的结点,以及用于连接结点之间边;对抽象语义和文本表示进行语义编码处理,得到语义嵌入向量,语义嵌入向量用于表示每个词语的与事件之间的语义特征;对抽象语义表示进行图编码处理,得到图嵌入向量,其中,图嵌入向量为用于表示通过边相连接的结点的结构特征;将语义嵌入向量与图嵌入向量进行拼接,得到拼接特征向量;对拼接特征向量进行识别,输出目标事件。

    基于图神经网络的中文开放信息抽取方法和装置

    公开(公告)号:CN113705196A

    公开(公告)日:2021-11-26

    申请号:CN202110882753.X

    申请日:2021-08-02

    Applicant: 清华大学

    Abstract: 本发明提供一种基于图神经网络的中文开放信息抽取方法和装置,包括:将待测中文语句文本输入谓语抽取模型,输出谓语结果;谓语抽取模型是基于样本中文语句文本和谓语标签进行训练得到的,谓语抽取模型训练时的网络结构包括顺次连接的嵌入词性的字符上下文表示网络、第一多粒度依存图字符表示神经网络和谓语区间分类网络;将谓语结果和待测中文语句文本输入主宾抽取模型,输出主语结果和宾语结果;主宾抽取模型是基于样本中文语句文本和主谓宾三元组标签进行训练得到的,主宾抽取模型训练时的网络结构与谓语抽取模型架构相同。本发明提供的方法和装置,实现了融合分词和依存句法信息,提高了抽取开放的事实主谓宾知识三元组的准确率。

    知识概念构建方法和装置
    59.
    发明公开

    公开(公告)号:CN113268608A

    公开(公告)日:2021-08-17

    申请号:CN202110606634.1

    申请日:2021-05-27

    Applicant: 清华大学

    Abstract: 本发明提供一种知识概念层数据构建方法和装置,其中,方法包括获取原始数据和大规模知识图谱;对原始数据进行概念抽取,得到多个概念;对所述概念和所述原始数据进行概念上下位关系抽取,得到不同概念的概念上下位关系;对所述概念和所述原始数据进行概念属性抽取,得到所述概念的概念属性;将所述概念作为关键词输入大规模知识图谱中进行检索,获取所述概念在大规模知识图谱中的概念相关信息;将所述概念、所述概念的上下位关系、所述第一概念属性、所述概念相关信息相融合,得到完整的概念层数据。基于所述概念层数据对大规模知识图谱进行更新。本发明通过上述步骤实现对知识图谱的动态更新以及在使用过程中进行扩展。

    概念抽取方法、装置、电子设备及存储介质

    公开(公告)号:CN112527977A

    公开(公告)日:2021-03-19

    申请号:CN202011241251.0

    申请日:2020-11-09

    Applicant: 清华大学

    Abstract: 本发明实施例提供一种概念抽取方法、装置、电子设备及存储介质,其中,该方法包括:根据预设的词表对待提取文本进行术语抽取,获取第一候选概念列表,并根据预设的知识图谱对待提取文本进行实体链接,获取第二候选概念列表;对第一候选概念列表和第二候选概念列表中的各候选概念进行重排序,根据重排序的结果获取待提取文本的概念抽取结果;其中,待提取文本为非结构化文本。本发明实施例提供的概念抽取方法、装置、电子设备及存储介质,通过对待提取文本进行术语抽取和实体链接获取的各候选概念进行重排序,根据重排序的结果获取概念抽取结果,能在标注数据较少甚至没有标注数据的情况下,从非结构化文本中更高效、准确等抽取出概念。

Patent Agency Ranking