-
公开(公告)号:CN119168055A
公开(公告)日:2024-12-20
申请号:CN202411051838.3
申请日:2024-08-01
Applicant: 中国科学院自动化研究所 , 上海人工智能创新中心
IPC: G06N5/04 , G06N5/045 , G06N5/022 , G06F16/9032
Abstract: 本发明提供一种基于知识库与语言模型的问答方法及装置,该方法包括:将目标问题输入至知识生成模型中输出至少一维目标知识信息;将根据目标问题和各维目标知识信息获取的目标输入信息输入至问答模型中,得到目标问题对应的答案预测信息;知识生成模型是基于知识库中的第一知识元组生成的第一候选问题、根据第一候选问题以及知识库中的第二知识元组生成的第二候选问题、根据第一知识元组转换的第一样本知识信息和通过大型语言模型对第二候选问题进行提示信息学习得到的第二样本知识信息,对小型语言模型进行训练的。本发明融合知识库与语言模型训练出可生成高质量知识信息,且小尺寸的知识生成模型,以便捷、高效地预测出高精度的答案。
-
公开(公告)号:CN118377870A
公开(公告)日:2024-07-23
申请号:CN202410423509.0
申请日:2024-04-09
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F18/22 , G06F18/214
Abstract: 本发明提供一种基于大语言模型指导的无监督对话检索器的训练方法,方法包括:获取样本对话查询数据,以及初始对话检索器;基于初始对话检索器,生成样本对话查询数据的回复参考文档;基于大语言模型,确定样本对话查询数据与回复参考文档之间的相关性结果;基于相关性结果,指导初始对话检索器进行参数迭代,直至得到最终的对话检索器。本发明提供的方法,借助于大语言模型零样本泛化能力,将大语言模型的知识理解能力应用到得到样本对话数据与回复参考文档之间的相关性结果的任务上,提升了初始检索器的训练效率。并且,可以使得对话检索器具备大语言模型强大的对话理解能力,同时也提升了对话检索器的对话理解能力和检索性能。
-
公开(公告)号:CN111858898A
公开(公告)日:2020-10-30
申请号:CN202010753509.9
申请日:2020-07-30
Applicant: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
IPC: G06F16/332 , G06F40/211 , G06F40/289 , G06N3/04
Abstract: 本申请提供了一种基于人工智能的文本处理方法、装置、电子设备及计算机可读存储介质;方法包括:对文本中属于同一句子的多个词语进行特征提取处理,得到多个词语的特征表示,以作为句子的句子级信息;对文本中的多个句子进行特征提取处理,得到多个句子的特征表示,以作为文本级信息;从知识库中获取文本中属于同一句子的多个词语的设定特征表示,以作为句子的设定信息;针对文本中的每个词语,根据词语所在句子的句子级信息、文本级信息、以及词语所在句子的设定信息,更新词语的特征表示,并根据词语的更新后的特征表示进行类型预测处理,得到词语的预测类型。通过本申请,能够提升得到的预测类型的精度,进而能够提升问答服务的智能化程度。
-
公开(公告)号:CN119378692A
公开(公告)日:2025-01-28
申请号:CN202411945230.5
申请日:2024-12-27
Applicant: 中国科学院自动化研究所
IPC: G06N5/04 , G06N3/045 , G06F40/20 , G06F40/295
Abstract: 本发明提供一种幻觉文本缓解方法、装置、设备、存储介质及程序产品,应用于自然语言处理技术领域。该方法包括:获取大语言模型生成的第一幻觉文本;通过基础修正器对所述第一幻觉文本进行修正,得到第二幻觉文本;通过评估器评估所述第二幻觉文本,得到文本评价信息和此次修正过程的质量评分;在所述质量评分超过预设阈值的情况下,将所述第二幻觉文本作为输出文本;在所述质量评分不超过所述预设阈值的情况下,基于所述文本评价信息,通过反思器确定缓解策略;根据所述缓解策略调整所述基础修正器的修正策略,并将所述第二幻觉文本重新输入调整后的所述基础修正器中。
-
公开(公告)号:CN119358624A
公开(公告)日:2025-01-24
申请号:CN202411309928.8
申请日:2024-09-19
Applicant: 中国科学院自动化研究所
IPC: G06N3/082 , G06N3/0495 , G06N3/042 , G06N3/0499
Abstract: 本发明提供一种基于冲突注意力头剪枝的知识冲突消除方法以及装置,其中,上述方法包括:获取原始输入与干扰输入;基于原始输入运行目标语言模型,确定每个注意力头的原始激活状态;基于干扰输入运行目标语言模型,确定每个注意力头的干扰激活状态;分别将每个注意力头的原始激活状态替换为干扰激活状态,确定每个注意力头的输出变化量;进而确定每个注意力头的代理重要性分数;基于每个注意力头的代理重要性分数进行排序,将目标序号的注意力头作为冲突注意力头,其中,冲突注意力头为上下文头;对冲突注意力头进行注意力剪枝,以消除目标语言模型的知识冲突;通过本发明能够提高模型在处理内部记忆和外部上下文时的灵活性。
-
公开(公告)号:CN118733413A
公开(公告)日:2024-10-01
申请号:CN202410761163.5
申请日:2024-06-13
Applicant: 中国科学院自动化研究所 , 上海人工智能创新中心
IPC: G06F11/34
Abstract: 本申请提供一种大模型能力多维评测方法和装置,涉及人工智能技术领域,包括:基于模型评测能力体系,确定对各个待评测模型进行评测的多个能力评测维度;确定各个能力评测维度对应的评测题;基于各个能力评测维度对应的评测题,对各个待评测模型进行评测,确定各个待评测模型在各个能力评测维度下的评测结果;基于各个待评测模型在各个能力评测维度下的评测结果,确定各个待评测模型的多维评测结果。本申请提供的方法和装置,提高了大模型能力评测的准确性和全面性。
-
公开(公告)号:CN112101484B
公开(公告)日:2021-02-12
申请号:CN202011244409.X
申请日:2020-11-10
Applicant: 中国科学院自动化研究所
IPC: G06K9/62
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于知识巩固的增量事件识别方法、系统、装置,旨在解决现有的事件识别方法在微调模型后识别新类别的事件时,容易出现灾难遗忘,导致识别精度较低的问题。本系统方法包括获取待识别事件的文本,作为输入文本;通过预训练的语言模型提取输入文本中各单词的上下文特征;基于所述上下文特征,通过多层感知器模型得到待识别事件的类别。本发明提高了事件识别的精度。
-
公开(公告)号:CN109783812B
公开(公告)日:2020-08-11
申请号:CN201811621018.8
申请日:2018-12-28
Applicant: 中国科学院自动化研究所
IPC: G06F40/295 , G06F40/289
Abstract: 本发明属于自然语言处理技术领域,具体涉及一种基于自注意力机制的中文命名实体识别方法、系统、装置,旨在为了解决解决中文命名实体识别的准确度不能满足需求的问题。本发明方法包括:提取待识别语句的私有特征h1、共有特征s1;基于自注意力机制分别计算共有特征s1、私有特征h1对应的长距离依赖关系,获取基于依赖关系的私有特征h′1、基于依赖关系的共有特征s′1;通过任务分类器判断所述待识别语句是否为中文命名实体识别数据时将h′1与s′1进行拼接,获取融合后的中文命名实体识别数据特征h″1,采用条件随即场对融合之后的特征h″1进行标签预测。本发明有效地提高了中文命名实体识别的准确度。
-
公开(公告)号:CN119476482A
公开(公告)日:2025-02-18
申请号:CN202411521465.1
申请日:2024-10-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种针对大型语言模型的毒性思维链分析和优化方法及装置,方法包括:获取问题文本输入到大语言模型进行文本问答;通过归因追踪分析生成毒性思维链时存在的推理漂移信息损失,或者通过因果追踪分析根据毒性思维链生成回答文本时存在的回答偏移信息损失;当分析出存在推理漂移信息损失时,对毒性思维链进行残差解码得到优化思维链,当分析出存在回答漂移信息损失时,在思维链文本片段中,将问题文本与毒性思维链进行文本序列位置交换,得到优化文本序列,以使大语言模型基于优化思维链或优化文本序列,生成回答文本。通过本申请,克服在问答场景中,大语言模型毒性思维链的优化方法不能普遍适应,导致推理性能低下的缺陷。
-
公开(公告)号:CN119204091A
公开(公告)日:2024-12-27
申请号:CN202411294781.X
申请日:2024-09-14
Applicant: 中国科学院自动化研究所
IPC: G06N3/042 , G06F18/22 , G06N3/045 , G06N3/084 , G06N3/0985 , G06N3/0442
Abstract: 本发明提供一种基于模式匹配的大型语言模型知识编辑方法及装置,其中,上述方法包括:获取目标编辑知识,其中,所述目标编辑知识用于对大型语言模型进行知识更新;确定所述大型语言模型中各个层级与所述目标编辑知识之间的多个模式匹配程度;确定所述多个模式匹配程度中的最高模式匹配程度,将所述最高模式匹配程度所对应的层级作为目标编辑层;基于所述目标编辑知识对所述目标编辑层的多层感知机进行秩一编辑,得到编辑后的大型语言模型;通过本发明能够在准确进行知识编辑的同时不影响其他无关数据。
-
-
-
-
-
-
-
-
-