-
公开(公告)号:CN111858898A
公开(公告)日:2020-10-30
申请号:CN202010753509.9
申请日:2020-07-30
申请人: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC分类号: G06F16/332 , G06F40/211 , G06F40/289 , G06N3/04
摘要: 本申请提供了一种基于人工智能的文本处理方法、装置、电子设备及计算机可读存储介质;方法包括:对文本中属于同一句子的多个词语进行特征提取处理,得到多个词语的特征表示,以作为句子的句子级信息;对文本中的多个句子进行特征提取处理,得到多个句子的特征表示,以作为文本级信息;从知识库中获取文本中属于同一句子的多个词语的设定特征表示,以作为句子的设定信息;针对文本中的每个词语,根据词语所在句子的句子级信息、文本级信息、以及词语所在句子的设定信息,更新词语的特征表示,并根据词语的更新后的特征表示进行类型预测处理,得到词语的预测类型。通过本申请,能够提升得到的预测类型的精度,进而能够提升问答服务的智能化程度。
-
公开(公告)号:CN111737552A
公开(公告)日:2020-10-02
申请号:CN202010500623.0
申请日:2020-06-04
申请人: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC分类号: G06F16/953 , G06F16/36 , G06F40/211 , G06N20/00 , G06N3/04
摘要: 本申请涉及计算机技术领域,提供一种训练信息抽取模型和获取知识图谱的方法、装置和设备,用以提高信息抽取模型的鲁棒性。其中方法包括:对初始的第一信息抽取模型进行训练,基于对噪音样本的预测结果对第一信息抽取模型进行更新,得到第一中间态模型;基于第一中间态模型对噪音样本的预测结果与初始的第二信息抽取模型对非噪音样本的预测结果的差异对第一信息抽取模型进行更新,得到第二中间态模型;基于第二中间态模型对非噪音样本的预测结果对第二中间态模型进行更新,得到参考模型;基于预设平滑系数对参考模型的参数进行调整,得到目标信息抽取模型。本申请基于元学习的方式对模型参数进行更新,更新后的模型更鲁棒,构建的知识图谱更准确。
-
公开(公告)号:CN113761925A
公开(公告)日:2021-12-07
申请号:CN202110837136.8
申请日:2021-07-23
申请人: 中国科学院自动化研究所
IPC分类号: G06F40/295 , G06F40/216 , G06K9/62
摘要: 本发明提供一种基于噪声感知机制的命名实体识别方法、装置及设备,其中方法包括:确定待识别文本;将待识别文本输入至命名实体识别模型,得到命名实体识别模型输出的识别结果;命名实体识别模型是基于干净样本集合训练得到的,干净样本集合是基于原始样本集合中各样本文本的训练统计量,对原始样本集合进行噪声筛除得到的,训练统计量是在基于样本文本进行训练过程中统计的预测结果和标签之间的差异。本发明提供的方法、装置、电子设备和存储介质,能够通过获取待识别文本的识别结果,根据识别结果对待识别文本进行命名实体类型判定,克服了命名实体识别数据集中正确样本和噪声样本难以区分的问题,实现了待识别文本的命名实体类型的精确识别。
-
公开(公告)号:CN110941955A
公开(公告)日:2020-03-31
申请号:CN201911167293.1
申请日:2019-11-25
申请人: 中国科学院自动化研究所
IPC分类号: G06F40/211 , G06F40/30 , G06N3/04 , G06N3/08 , G06K9/62
摘要: 本发明涉及自然语言处理技术领域,具体涉及一种跨语言事件分类方法和装置。为了解决现有技术极大依赖高质量的机器翻译系统或者大规模的平行语料的问题,本发明提出一种跨语言事件分类方法,该方法包括从预先获取的目标语言的语料中获取所述目标语言对应的第一向量;从预先获取的源语言的语料中获取所述源语言对应的第二向量;根据所述第一向量和所述第二向量构建所述目标语言和所述源语言的映射关系;根据所述映射关系并通过对抗学习网络将所述源语言映射为所述目标语言;基于所述目标语言并通过所述事件类型分类器对所述目标语言对应的事件进行分类。利用本发明的方法和装置能够提高对事件识别的准确率。
-
公开(公告)号:CN107688583A
公开(公告)日:2018-02-13
申请号:CN201610640647.X
申请日:2016-08-05
申请人: 株式会社NTT都科摩 , 中国科学院自动化研究所
摘要: 本发明涉及一种创建用于自然语言处理装置的训练数据的方法和设备,以及利用该训练数据的自然语言处理装置。一种创建用于自然语言处理系统的训练数据的方法,包括:接收创建所述训练数据的请求;获得用于创建所述训练数据的自然语言语料库输入;确定所述训练数据所需的分包参数;基于所述分包参数,将所述自然语言语料库输入分为多个包,所述多个包的每个包括多个示例;对于所述多个示例的每一个,自动提取句子级特征向量,其中,具有所述句子级特征向量的所述多个包作为所述训练数据。
-
公开(公告)号:CN118733413A
公开(公告)日:2024-10-01
申请号:CN202410761163.5
申请日:2024-06-13
申请人: 中国科学院自动化研究所 , 上海人工智能创新中心
IPC分类号: G06F11/34
摘要: 本申请提供一种大模型能力多维评测方法和装置,涉及人工智能技术领域,包括:基于模型评测能力体系,确定对各个待评测模型进行评测的多个能力评测维度;确定各个能力评测维度对应的评测题;基于各个能力评测维度对应的评测题,对各个待评测模型进行评测,确定各个待评测模型在各个能力评测维度下的评测结果;基于各个待评测模型在各个能力评测维度下的评测结果,确定各个待评测模型的多维评测结果。本申请提供的方法和装置,提高了大模型能力评测的准确性和全面性。
-
公开(公告)号:CN110209816B
公开(公告)日:2021-06-08
申请号:CN201910440322.0
申请日:2019-05-24
申请人: 中国科学院自动化研究所
IPC分类号: G06F16/35 , G06F40/126
摘要: 本发明属于自然语言处理领域,具体涉及了一种基于对抗模仿学习的事件识别及分类方法、系统、装置,旨在解决传统事件识别及分类方法语言处理工具存在错误累计导致事件识别准确率低的问题。本发明方法包括:获取不含标准标注信息的句子并输入;将每一个词特征化后的词向量集构成词向量特征矩阵;采用向量编码器对词向量特征矩阵进行编码,并采用注意力机制为每一个词分配权重,获得知识向量;采用事件类型分类器依据知识向量计算输入信息属于各事件类别的概率;概率值最高的事件类别作为输入信息的事件类别。本发明不依赖自然语言处理工具对信息进行抽取,避免错误积累,提高了事件识别的准确率。
-
公开(公告)号:CN112101484B
公开(公告)日:2021-02-12
申请号:CN202011244409.X
申请日:2020-11-10
申请人: 中国科学院自动化研究所
IPC分类号: G06K9/62
摘要: 本发明属于自然语言处理技术领域,具体涉及一种基于知识巩固的增量事件识别方法、系统、装置,旨在解决现有的事件识别方法在微调模型后识别新类别的事件时,容易出现灾难遗忘,导致识别精度较低的问题。本系统方法包括获取待识别事件的文本,作为输入文本;通过预训练的语言模型提取输入文本中各单词的上下文特征;基于所述上下文特征,通过多层感知器模型得到待识别事件的类别。本发明提高了事件识别的精度。
-
公开(公告)号:CN109783812B
公开(公告)日:2020-08-11
申请号:CN201811621018.8
申请日:2018-12-28
申请人: 中国科学院自动化研究所
IPC分类号: G06F40/295 , G06F40/289
摘要: 本发明属于自然语言处理技术领域,具体涉及一种基于自注意力机制的中文命名实体识别方法、系统、装置,旨在为了解决解决中文命名实体识别的准确度不能满足需求的问题。本发明方法包括:提取待识别语句的私有特征h1、共有特征s1;基于自注意力机制分别计算共有特征s1、私有特征h1对应的长距离依赖关系,获取基于依赖关系的私有特征h′1、基于依赖关系的共有特征s′1;通过任务分类器判断所述待识别语句是否为中文命名实体识别数据时将h′1与s′1进行拼接,获取融合后的中文命名实体识别数据特征h″1,采用条件随即场对融合之后的特征h″1进行标签预测。本发明有效地提高了中文命名实体识别的准确度。
-
公开(公告)号:CN108345583A
公开(公告)日:2018-07-31
申请号:CN201711463578.0
申请日:2017-12-28
申请人: 中国科学院自动化研究所
摘要: 本发明涉及自然语言处理技术领域,具体涉及一种基于多语注意力机制的事件识别及分类方法及装置,旨在为了解决单语特征识别效果不能满足需求的问题,本发明的方法包括:将仅标注单语事件信息的数据映射为多语平行数据;将所述多语平行数据进行词汇级别对齐,通过多语对齐关系得到同一事件在多种不同语言中的一致性表示;基于单语注意力模型获取多语一致性信息;基于多语注意力模型获取多语互补性信息;基于所述多语一致性信息和所述多语互补性信息进行联合推理,通过非线性神经网络判别模型输出最终的识别结果。本发明可以提高事件的识别效果。
-
-
-
-
-
-
-
-
-