基于多模态知识图谱的知识推理方法

    公开(公告)号:CN112288091B

    公开(公告)日:2023-03-21

    申请号:CN202011195532.7

    申请日:2020-10-30

    Abstract: 本发明公开的一种基于多模态知识图谱的知识推理方法,旨在使知识推理可信度和准确度更高,具备更强建模和推理能力。本发明通过下述技术方案实现:基于大规模知识库的多跳推理,对不同的信息进行融合;通过属性图嵌入对属性缺失图进行属性补全,从非结构化、半结构化文档或句子中提取结构化信息,通过异构图嵌入对多模态知识图谱多类型特性构建动态异构图嵌入模型,实现半结构化知识、结构化知识以及非结构化不同类型知识的特征学习,得到多模态知识图谱特征,并作为基于图神经网络GNN开展知识推理的输入;生成推理路径,构建多条类型推理路径;计算图上节点类型的分类、边预测、频繁子图,生成知识推理任务,完成多步复杂知识推理。

    互联网政治外交类新闻事件抽取方法

    公开(公告)号:CN110941692B

    公开(公告)日:2022-07-29

    申请号:CN201910937986.8

    申请日:2019-09-28

    Abstract: 本发明公开的一种互联网政治外交类新闻事件抽取方法,旨在提供一种能够提高事件识别准确率的抽取方法,本发明通过下述技术方案予以实现:采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板;结合文本依存句法,分析、识别和抽取政外领域事件元素。完成单文本预处理操作,并基于义原相似性计算并扩展类别事件触发词;将满足相似度的阈值的句子作为候选事件句。筛选满足事件类别模板的事件元素,提取事件句中的实体要素;再按照事件模板将事件元素填充到对应的论元角色中;筛选满足类别模板的候选事件元素;按事件模板生成事件的结构化描述文件,构建出政外领域事件库。

    自动获取多源异构数据知识的方法

    公开(公告)号:CN110489395B

    公开(公告)日:2022-07-29

    申请号:CN201910685511.4

    申请日:2019-07-27

    Abstract: 本发明公开的一种自动获取多源异构数据知识的方法,旨在提供一种更加具有完整性、通用性和便捷性,有利于知识的传递的获取的方法。本发明通过下述技术方案予以实现:采取自顶向下或自底向上的方式定义概念‑实体‑属性‑关系‑标签,得到实体对象的知识模型,然后通过数据直接保存和爬虫软件、OCR等识别软件获取数据,得到知识数据,完成异构数据源到异构知识源的转换;通过结构化知识生成方法得到已知知识模式下的实体‑属性‑关系的三元组实例化;再使用长短期记忆网络模型(LSTM模型)与发布者‑完成者协作模式进行知识和知识模型的更新,得到扩展补充新知识的工作流,利用知识建模形成的知识模型,得到包含概念、实体、关系、属性值实例化三元组的数据流。

    抽取式机器智能阅读理解问答系统

    公开(公告)号:CN111611361B

    公开(公告)日:2022-06-14

    申请号:CN202010250183.8

    申请日:2020-04-01

    Abstract: 本发明公开的一种抽取式机器智能阅读理解问答系统,旨在提供一种能够提升问答查询效率与实用性的问答系统。本发明通过下述技术方案实现:文档检索模块针对文档库中的海量文本文档,构建全文本搜索引擎ES检索和语义检索两级文档检索体系,形成问答查询的初步文档集;阅读理解模块通过阅读理解预训练模型提取问题与文档深层语义特征,结合语义特征和结构特征,利用多层神经网络模型判断文档存在答案的概率,利用指针网络实现答案的抽取;答案合并预测模块综合阅读理解模型输出的答案对冗余答案进行合并,得到可能的答案列表以及对应的答案概率。模型优化模块通过已标注文档集实现阅读理解模型的训练与优化,为问答系统提供更好的阅读理解模型。

    文本分类语料标注训练系统

    公开(公告)号:CN110298032B

    公开(公告)日:2022-06-14

    申请号:CN201910455049.9

    申请日:2019-05-29

    Abstract: 本发明公开的一种文本分类语料标注训练系统,旨在提供一种能够降低人工标注反复度,并能提升预标注结果准确性的半自动化标注训练装置。本发明通过下述技术方案予以实现:文本分类语料标注准备模块统计文本词频,去除文本的噪声信息;半自动化文本语料分类标注模块在分类标注任务中选择CNN、KNN、ANN、深度学习算法,把非结构化和半结构化的文本转换为向量空间模型,生成文本的词向量空间,抽取反映文档主题特征;当标注任务完成后,反馈式分类标注模型学习训练模块反馈分类标注模型完善更新;文本分类标注模型效果评估模块基于分类指标规则对评测指标进行量化,建立标注算法综合评估模型,分析测试结果,评价分类结果,对模型指标量化标注效果进行评估。

    事件知识图谱预测群体性事件的方法

    公开(公告)号:CN112328801A

    公开(公告)日:2021-02-05

    申请号:CN202011043065.6

    申请日:2020-09-28

    Abstract: 本发明公开的一种事件知识图谱预测群体性事件的方法,涉及事件知识图谱挖掘与应用技术。本发明通过下述技术方案予以实现:分预测模型训练和实时预测两个阶段;预测模型训练阶段以历史结构化事件数据为输入数据构建历史事件图谱,采用图嵌入网络学习事件图谱的向量化表示,进而基于深度神经网络建立的分类网络模型来预测事件是否发生;实时预测阶段以实时的结构化事件数据为输入数据构建实时事件图谱,作为已训练完成的事件预测模型的输入数据,将实时事件数据构建的事件图谱输入事件预测模型,获取事件图谱的向量化表示,进而挖掘事件数据的深度语义信息,转化成一个事件发生和不发生的二分类问题,将概率最大的结果作为事件是否发生的预测结果。

    基于多模态知识图谱的知识推理方法

    公开(公告)号:CN112288091A

    公开(公告)日:2021-01-29

    申请号:CN202011195532.7

    申请日:2020-10-30

    Abstract: 本发明公开的一种基于多模态知识图谱的知识推理方法,旨在使知识推理可信度和准确度更高,具备更强建模和推理能力。本发明通过下述技术方案实现:基于大规模知识库的多跳推理,对不同的信息进行融合;通过属性图嵌入对属性缺失图进行属性补全,从非结构化、半结构化文档或句子中提取结构化信息,通过异构图嵌入对多模态知识图谱多类型特性构建动态异构图嵌入模型,实现半结构化知识、结构化知识以及非结构化不同类型知识的特征学习,得到多模态知识图谱特征,并作为基于图神经网络GNN开展知识推理的输入;生成推理路径,构建多条类型推理路径;计算图上节点类型的分类、边预测、频繁子图,生成知识推理任务,完成多步复杂知识推理。

    抽取式机器智能阅读理解问答系统

    公开(公告)号:CN111611361A

    公开(公告)日:2020-09-01

    申请号:CN202010250183.8

    申请日:2020-04-01

    Abstract: 本发明公开的一种抽取式机器智能阅读理解问答系统,旨在提供一种能够提升问答查询效率与实用性的问答系统。本发明通过下述技术方案实现:文档检索模块针对文档库中的海量文本文档,构建全文本搜索引擎ES检索和语义检索两级文档检索体系,形成问答查询的初步文档集;阅读理解模块通过阅读理解预训练模型提取问题与文档深层语义特征,结合语义特征和结构特征,利用多层神经网络模型判断文档存在答案的概率,利用指针网络实现答案的抽取;答案合并预测模块综合阅读理解模型输出的答案对冗余答案进行合并,得到可能的答案列表以及对应的答案概率。模型优化模块通过已标注文档集实现阅读理解模型的训练与优化,为问答系统提供更好的阅读理解模型。

    互联网政治外交类新闻事件抽取方法

    公开(公告)号:CN110941692A

    公开(公告)日:2020-03-31

    申请号:CN201910937986.8

    申请日:2019-09-28

    Abstract: 本发明公开的一种互联网政治外交类新闻事件抽取方法,旨在提供一种能够提高事件识别准确率的抽取方法,本发明通过下述技术方案予以实现:采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板;结合文本依存句法,分析、识别和抽取政外领域事件元素。完成单文本预处理操作,并基于义原相似性计算并扩展类别事件触发词;将满足相似度的阈值的句子作为候选事件句。筛选满足事件类别模板的事件元素,提取事件句中的实体要素;再按照事件模板将事件元素填充到对应的论元角色中;筛选满足类别模板的候选事件元素;按事件模板生成事件的结构化描述文件,构建出政外领域事件库。

    关键词语料标注训练提取工具

    公开(公告)号:CN110298033A

    公开(公告)日:2019-10-01

    申请号:CN201910455064.3

    申请日:2019-05-29

    Abstract: 本发明公开的一种关键词语料标注训练提取工具,旨在提供一种可降低人工标注过程繁复度,并能提高海量关键词语料标注效率和准确率的标注训练工具。本发明通过下述技术方案予以实现:关键词语料标注准备模块对不同来源的海量语料数据进行区分,半自动化语料关键词标注模块创建关键词标注任务,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、TEXTRANK、TFIDF中至少一种关键词抽取算法,对待标注文本语料数据进行预标注处理,并对多种算法标注结果进行融合,当标注任务完成后,反馈式关键词标注模型学习训练模块对关键词标注算法模型进行训练;关键词标注模型效果评估模块对模型指标量化标注效果进行自动评估。

Patent Agency Ranking