基于检索的机器阅读理解系统的实现方法及装置

    公开(公告)号:CN112445887A

    公开(公告)日:2021-03-05

    申请号:CN201910808954.8

    申请日:2019-08-29

    申请人: 南京大学

    摘要: 基于检索的机器阅读理解系统的实现方法及装置,包括文本初步检索模块、检索结果重排序模块和机器阅读理解模块,文本初步检索模块被配置为事先构造领域文档集合,提取文档集合特征,将用户提出的问题和领域文档集合中的文档计算相似度,返回相似度最高的前x个文档给检索结果重排序模块,检索结果重排序模块根据所得x个文档与问题重新计算相关性,并将相关性最高的文档传导至机器阅读理解模块,机器阅读理解模块根据问题从最相关的文档中抽取出问题对应的答案。本发明针对用户的问题找到最相关的文档,将得到的文档和用户的问题交给机器阅读理解模型,最终得到问题对应的答案,构成了一个基于检索的机器阅读理解系统,提高问题类搜索的效率。

    一种面向共指消解的多语义网实体对比表自动生成方法

    公开(公告)号:CN105260457A

    公开(公告)日:2016-01-20

    申请号:CN201510662906.4

    申请日:2015-10-14

    申请人: 南京大学

    IPC分类号: G06F17/30

    CPC分类号: G06F17/3089 G06F17/30876

    摘要: 本发明公开了一种面向共指消解的多语义网实体对比表自动生成方法,包括以下步骤:给定一组候选共指实体,首先根据结构和文本信息来合并这组实体中语义相近的属性。接下来,基于合并后的属性及实体在属性上的取值分布对属性评分,并计算待选属性与已选属性的冗余度,从中挑选出一个高评分且低冗余的属性加入关键属性集合,重复本步骤直到选完预定数目的属性或无属性可选。最后,基于关键属性组织实体在关键属性上的取值,生成可视化实体对比表供用户参与实体共指消解。应用本发明能够提高用户参与多语义网实体共指消解的准确率和效率。

    一种领域本体构建方法及系统

    公开(公告)号:CN103218362A

    公开(公告)日:2013-07-24

    申请号:CN201210017772.7

    申请日:2012-01-19

    IPC分类号: G06F17/30

    摘要: 本发明公开一种领域本体构建方法,包括:罗列需要被目标本体描述的所有术语的名称,形成关键词集合W0;对关键词集合W0中的所有关键词进行排序,形成关键词序列S0;创建待复用的本体集合O,将从关键词序列S0中抽取的连续子序列中的所有关键词提交到本体检索系统,将检索结果中排名最高的本体添加到本体集合O;对本体集合O中的所有本体进行集合的并操作处理,形成新的本体o;本发明还提供一种领域本体构建系统。根据本发明的技术方案,提供一种面向本体检索的关键词查询的构建方法,具有良好的定义和可操作性,可取得较高的本体复用率。

    基于全局关键属性的语义网对象共指的自动消解方法

    公开(公告)号:CN103077237A

    公开(公告)日:2013-05-01

    申请号:CN201310007682.4

    申请日:2013-01-09

    申请人: 南京大学

    发明人: 胡伟 杨睿 瞿裕忠

    IPC分类号: G06F17/30

    摘要: 本发明提供一种基于全局关键属性的语义网对象共指自动消解方法,包括下列步骤:1)语义网对象样本分类,将具有相同类型和付费域名的对象样本归类在一起;2)全局关键属性识别,针对具有相同类型和付费域名的一组语义网对象样本,识别出其中共指的对象样本集合和不共指的对象样本集合,计算上述两个集合中对象样本所含数据样本中属性间的相似度,统计识别全局关键属性;3)语义网对象共指消解,给定任意一个语义网对象,基于它的类型和付费域名,重用已识别出的全局关键属性,寻找具有相似关键属性值的其它对象,实现对象共指消解。本发明能够准确高效的自动识别出语义网对象的全局关键属性,并以此为基础,实现语义网对象共指的自动消解,此外已识别的全局关键属性在今后的消解过程中可以重用。

    一种基于神经网络的知识库问答中的属性匹配方法

    公开(公告)号:CN112445899B

    公开(公告)日:2024-05-03

    申请号:CN201910808206.X

    申请日:2019-08-29

    申请人: 南京大学

    摘要: 一种基于神经网络的知识库问答中的属性匹配方法,包含以下步骤:替换问句中的实体并根据实体生成候选属性,将其分词送入神经网络中的词嵌入层;利用双向LSTM学习上下问语义表示;根据问句和属性的词向量表示计算得到词义相似度矩阵,同理根据语义表示得到语义相似度矩阵;分别从问句方向和属性方向取两个相似度矩阵的最大值得到四个向量后,通过全联接层得到问句和属性的相似度;选择最高相似度及其对应的属性,若该相似度大于阈值,则加入属性,并替换问句中的文本进行下一轮属性匹配。本发明结合考虑问句和属性的上下文语义表示和词义表示来计算最终的相似度,提高了属性匹配的准确性;可以定位到问句中对应的谓词文本,迭代的处理多跳问题。

    一种基于联合学习模型的细粒度数值信息抽取方法

    公开(公告)号:CN111309849B

    公开(公告)日:2023-06-23

    申请号:CN202010083902.1

    申请日:2020-02-10

    申请人: 南京大学

    摘要: 本发明公开了利用一种基于联合学习模型的细粒度数值信息抽取方法,包括如下步骤:对输入文本进行预处理;根据数值相关正则表达式识别候选的数值,以数值为触发词,与其前后词例拼接,作为联合学习模型的输入;联合学习模型的底层接入词嵌入层,并对词嵌入层的输出加入数值触发词的位置信息,得到每个词例最终的分布式表示;基于分布式表示接入后续的特征提取网络,并在高层分别接入具体任务的网络:接入分类网络得到数值信息的语义类型,接入序列标注网络得到数值触发词相关的数个语义角色;合并具体任务的输出得到数值信息单元;针对多个数值信息单元,基于统计方法判断它们之间的复合关系。本发明无需人工设计特征、准确性高、泛化能力强。

    一种生成式对话状态追踪模型的实现方法及装置

    公开(公告)号:CN114841069A

    公开(公告)日:2022-08-02

    申请号:CN202210509258.9

    申请日:2022-05-11

    申请人: 南京大学

    发明人: 瞿裕忠 彭德家

    IPC分类号: G06F30/27 G06F119/02

    摘要: 一种生成式对话状态追踪模型的实现方法及装置,对对话状态追踪构建生成模型,包括两个子任务,(1)针对槽位信息多标签分类,将对话语句输入到编码器获得对话的表示,再输入多标签分类模块获得每个槽位对应的logitmc;(2)生成对话状态任务,同时将对话的表示,输入到对话状态的解码器使用束搜索方式生成对话状态对应的logitgen;训练生成模型时将logitmc分别与正确的槽位分类结果计算二元交叉熵损失、logitgen和对话状态结果计算交叉熵损失,将二元交叉熵损失和交叉熵损失结合起来对生成模型进行训练优化。本发明使用单数据集训练即可,提高了对话状态生成的准确率,且训练效率高,资源利用率高。

    一种基于语义解析的时间表达式标准化方法

    公开(公告)号:CN111401073A

    公开(公告)日:2020-07-10

    申请号:CN202010155372.7

    申请日:2020-03-09

    申请人: 南京大学

    IPC分类号: G06F40/30 G06K9/62

    摘要: 本发明公开了一种基于语义解析的时间表达式标准化方法。该方法为:首先构建时间表达式中的语义项,包括语义计算函数和语义值;然后使用训练集标注的时间表达式标准化值和其基准时间值,穷举其所有可能的语义组合;接着将时间表达式语义项分配问题建模为整数规划问题,通过优化算法完成底层语义项的自动分配;最后使用启发式规则自动组合语义项,解析待标准化的时间表达式语义,得到其标准化值。本发明无需手工分配与组合底层语义项,减少了人力成本,提高了时间表达式标准化的灵活性和泛化能力。

    中文自然语言问句语义化的知识库自动问答方法

    公开(公告)号:CN105701253A

    公开(公告)日:2016-06-22

    申请号:CN201610125710.6

    申请日:2016-03-04

    申请人: 南京大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种中文自然语言问句语义化的知识库自动问答方法,包括以下步骤:对用户输入的事实型问题进行中文自然语言处理,实现分词、词性标注、命名实体识别和扩展,生成语义依存树;使用泛化模板和语义解析技术获得问句中的时间、空间、事实主体、事实客体等组成成分,然后进行语义化处理,提取问句中所有事件相关的组成元素属性及其取值,生成多个“属性—取值”对,其中待回答的元素以疑问词代替,形成复杂事实三元组集合;待回答部分所在三元组联合其他相关事实三元组形成一个带条件约束的知识库查询,到知识库中进行基于相似度计算的查询匹配,从知识库中抽取结果,得到最终答案。本发明实现了对知识库的快速准确的查询应答。

    基于证据图模式检索问题相关子图的方法、设备及介质

    公开(公告)号:CN116483959A

    公开(公告)日:2023-07-25

    申请号:CN202310327295.2

    申请日:2023-03-30

    申请人: 南京大学

    摘要: 基于证据图模式检索问题相关子图的方法、设备及介质,从图结构的知识库中检索出一个规模较小的能为自然语言问题的求解提供事实支撑的证据子图,首先通过关联资源对检索模型将自然语言问题转化为向量表示并从离线构建的关联资源对向量库中检索出与之相关性较高的候选;然后根据关联资源对候选枚举出所有可能的证据图模式;最后通过排序模型对所有证据图模式进行统一排序并使用排名靠前的多个证据图模式导出问题相关子图。本发明将对问题相关子图的检索转化为对少量证据图模式的检索,避免了直接在大规模图数据上做带剪枝的迭代式子图拓展导致的剪枝损耗,能有效提升在多跳问题上的子图检索性能。