文本识别样本获取、文本识别方法及装置

    公开(公告)号:CN113742445B

    公开(公告)日:2022-09-27

    申请号:CN202110807246.X

    申请日:2021-07-16

    Abstract: 本发明提供一种文本识别样本获取、文本识别方法及装置,所述获取方法包括:将初始文本样本输入至样本生成模型,得到样本生成模型输出的多个文本识别样本。由于样本生成模式是基于生成器和识别器进行对偶学习得到的,从而可以得到多个高质量的文本识别样本,且各文本识别样本以不同的语义方式表达两个事件之间的因果关系或非因果关系,进而将高质量的文本识别样本用于文本识别模型训练时,能够提高文本识别模型的识别精度。同时本发明在初始文本样本的基础上得到多个文本识别样本,扩大了样本的数量规模,进而在文本识别样本用于文本识别模型训练时,能够使得文本识别模型能够准确学习文本识别样本中事件的因果语义关系,提高模型的识别精度。

    事件抽取方法、装置、电子设备及存储介质

    公开(公告)号:CN113761875A

    公开(公告)日:2021-12-07

    申请号:CN202110827424.5

    申请日:2021-07-21

    Abstract: 本发明提供一种事件抽取方法、装置、电子设备及存储介质,其中方法包括:获取待抽取文档;将所述待抽取文档输入至事件抽取模型,得到所述事件抽取模型输出的所述待抽取文档对应的预测结果;其中,所述预测结果包括多个预测事件,以及每一预测事件对应的事件元素;所述事件抽取模型用于基于所述待抽取文档中每一语句的上下文特征和事件元素,确定所述待抽取文档中事件之间的关系、角色之间的关系和事件到角色之间的关系,并确定所述预测结果。本发明提供的方法、装置、电子设备及存储介质,能够同时提取多个事件,并实现事件元素的准确分配,减小了事件抽取的误差,提高了事件抽取的准确性。

    文本识别样本获取、文本识别方法及装置

    公开(公告)号:CN113742445A

    公开(公告)日:2021-12-03

    申请号:CN202110807246.X

    申请日:2021-07-16

    Abstract: 本发明提供一种文本识别样本获取、文本识别方法及装置,所述获取方法包括:将初始文本样本输入至样本生成模型,得到样本生成模型输出的多个文本识别样本。由于样本生成模式是基于生成器和识别器进行对偶学习得到的,从而可以得到多个高质量的文本识别样本,且各文本识别样本以不同的语义方式表达两个事件之间的因果关系或非因果关系,进而将高质量的文本识别样本用于文本识别模型训练时,能够提高文本识别模型的识别精度。同时本发明在初始文本样本的基础上得到多个文本识别样本,扩大了样本的数量规模,进而在文本识别样本用于文本识别模型训练时,能够使得文本识别模型能够准确学习文本识别样本中事件的因果语义关系,提高模型的识别精度。

    基于联邦学习的分布式语言关系识别方法、系统和装置

    公开(公告)号:CN112101578B

    公开(公告)日:2021-02-23

    申请号:CN202011285430.4

    申请日:2020-11-17

    Abstract: 本发明属于数据识别领域,具体涉及了一种基于联邦学习的分布式语言关系识别方法、系统和装置,旨在解决多个参与方在不共享数据的基础上难以联合建模的问题。本发明包括:各个本地平台获取待识别数据和带标签的本地训练数据,在根据本地训练数据训练本地分类器模型,用训练好的分类器模型集成为全局分类器模型,再通过全局分类器模型初始化本地分类器模型,用初始化后的本地分类模型识别待识别的数据获得语言关系预测结果。本发明实现了在不共享数据的基础上将本地平台结合其它平台进行数据使用和机器学习建模,提高了自然语言识别模型训练的协作性,解决了数据孤岛的问题,降低各个平台训练模型所需的训练数据总量和要求。

    基于联邦学习的分布式语言关系识别方法、系统和装置

    公开(公告)号:CN112101578A

    公开(公告)日:2020-12-18

    申请号:CN202011285430.4

    申请日:2020-11-17

    Abstract: 本发明属于数据识别领域,具体涉及了一种基于联邦学习的分布式语言关系识别方法、系统和装置,旨在解决多个参与方在不共享数据的基础上难以联合建模的问题。本发明包括:各个本地平台获取待识别数据和带标签的本地训练数据,在根据本地训练数据训练本地分类器模型,用训练好的分类器模型集成为全局分类器模型,再通过全局分类器模型初始化本地分类器模型,用初始化后的本地分类模型识别待识别的数据获得语言关系预测结果。本发明实现了在不共享数据的基础上将本地平台结合其它平台进行数据使用和机器学习建模,提高了自然语言识别模型训练的协作性,解决了数据孤岛的问题,降低各个平台训练模型所需的训练数据总量和要求。

    基于屏蔽泛化机制的事件因果关系识别方法、系统、装置

    公开(公告)号:CN111881688A

    公开(公告)日:2020-11-03

    申请号:CN202010801363.0

    申请日:2020-08-11

    Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于屏蔽泛化机制的事件因果关系识别方法、系统、装置,旨在解决模型训练困难以及事件因果关系识别鲁棒性较差的问题。本发明方法包括:获取待识别事件因果关系的文本,作为输入文本;通过BERT模型提取输入文本与因果事件的实体信息对应的三元组集合融合后的特征,作为第一特征;通过BERT模型提取输入文本中未屏蔽信息的特征,作为第二特征;将第一特征、第二特征进行融合,将融合后的特征作为第三特征;基于第三特征,通过预构建的分类模型获取输入文本中事件因果关系的识别结果。本发明简化了模型训练的难度,并提高了事件因果关系识别的鲁棒性。

    训练信息抽取模型和获取知识图谱的方法、装置和设备

    公开(公告)号:CN111737552A

    公开(公告)日:2020-10-02

    申请号:CN202010500623.0

    申请日:2020-06-04

    Abstract: 本申请涉及计算机技术领域,提供一种训练信息抽取模型和获取知识图谱的方法、装置和设备,用以提高信息抽取模型的鲁棒性。其中方法包括:对初始的第一信息抽取模型进行训练,基于对噪音样本的预测结果对第一信息抽取模型进行更新,得到第一中间态模型;基于第一中间态模型对噪音样本的预测结果与初始的第二信息抽取模型对非噪音样本的预测结果的差异对第一信息抽取模型进行更新,得到第二中间态模型;基于第二中间态模型对非噪音样本的预测结果对第二中间态模型进行更新,得到参考模型;基于预设平滑系数对参考模型的参数进行调整,得到目标信息抽取模型。本申请基于元学习的方式对模型参数进行更新,更新后的模型更鲁棒,构建的知识图谱更准确。

    针对错误前提的幻觉缓解方法和装置

    公开(公告)号:CN119398181A

    公开(公告)日:2025-02-07

    申请号:CN202510008081.8

    申请日:2025-01-03

    Abstract: 本发明提供一种针对错误前提的幻觉缓解方法和装置,应用于自然语言处理技术领域。该方法包括:获取第一输入文本和第二输入文本,所述第二输入文本为将所述第一输入文本中的错误前提替换为占位符的文本;分别确定大语言模型处理所述第一输入文本时每个注意力头的第一激活值,以及处理所述第二输入文本时每个注意力头的第二激活值;按照目标处理方式确定每个注意力头对大语言模型输出幻觉文本的影响力;基于所述影响力确定目标注意力头,并对所述目标注意力头进行削弱处理。

    因果关系的识别方法、装置、电子设备、存储介质和计算机程序产品

    公开(公告)号:CN118917313A

    公开(公告)日:2024-11-08

    申请号:CN202411072445.0

    申请日:2024-08-06

    Abstract: 本公开涉及自然语言处理技术领域,具体涉及一种因果关系的识别方法、装置、电子设备、存储介质和计算机程序产品,因果关系的识别方法包括:获取目标语言的待识别文本数据;基于源语言的文本数据训练得到的异构图交互网络,对待识别文本数据中事件间的因果关系进行识别,其中,目标语言包括与源语言不同的语言。可以通过构建异构图交互网络并对源语言中包含事件对的陈述、以及不包含事件对的陈述进行多语言复写后,在陈述层面使用对比学习的方式提高从源语言学习的因果知识的跨语言可迁移性;使得用源语言中的标注数据训练的异构图交互网络能够直接应用于目标语言,实现零样本跨语言的文档级因果识别模型,解决了低资源语言识别能力差的问题。

Patent Agency Ranking