-
公开(公告)号:CN119647586A
公开(公告)日:2025-03-18
申请号:CN202411522546.3
申请日:2024-10-29
Applicant: 清华大学
Abstract: 本发明提供一种大语言模型的训练方法、装置、电子设备及存储介质,涉及人工智能技术领域。其中,大语言模型的训练方法,包括:获取指令响应数据对;其中,指令响应数据对由指令和利用大语言模型根据指令生成的响应组成,响应包括预设领域的文本;从指令响应数据对包含的响应中,提取响应包含的约束信息;根据响应、响应包含的约束信息以及响应对应的指令,生成训练数据集;利用训练数据集,对预训练的大语言模型进行继续训练,得到目标大语言模型,以利用目标大语言模型根据指令,生成响应。本发明可以高效地训练得到可准确执行具有复杂约束的指令的大语言模型,进而有效提升计算资源的利用率。
-
公开(公告)号:CN118427292A
公开(公告)日:2024-08-02
申请号:CN202410531939.4
申请日:2024-04-29
Applicant: 清华大学
IPC: G06F16/31 , G06N20/00 , G06N3/09 , G06N3/0455
Abstract: 本发明提供一种针对信息抽取任务的大语言模型对齐方法及系统,该方法包括:确定信息抽取指导调整数据集;信息抽取指导调整数据集包括多样化的输入和答案输出;多样化的输入基于预设信息抽取数据在信息抽取任务上对齐大语言模型;答案输出与多样化的输入的格式要求对应;基于信息抽取指导调整数据集和预设通用对齐语料库对预设大语言模型进行监督微调训练,得到监督微调大语言模型。本发明为信息抽取任务确定了高质量的对齐数据,并基于对齐数据对预设大语言模型进行监督微调训练,使监督微调大语言模型在信息抽取任务上具有较好的泛化能力,且不影响大语言模型的通用性能。
-
公开(公告)号:CN110852066B
公开(公告)日:2021-06-01
申请号:CN201810827459.7
申请日:2018-07-25
Applicant: 清华大学
IPC: G06F40/211 , G06N5/02 , G06N3/04
Abstract: 本发明提供的一种基于对抗训练机制的多语言实体关系抽取方法及系统,将目标实体对相关的各语言中的目标句子分别编码到各语言对应的独立语义空间和所有语言对应的一致性语义空间,获得目标句子中蕴含的各语言独立的信息和跨语言的一致的信息;再分别采用各语言独立的注意力机制和各语言间一致的注意力机制衡量每个目标句子相对各关系类型的注意力权重,最终结合所有目标句子相对各关系类型的注意力权重获得各关系类型对应的全局概率,从各关系类型对应的全局概率中选取出最大概率,最终即可根据最大概率对应的关系类型预测目标实体对之间的关系。该方法及系统能够深层地利用多语言间的互补性,有效提高了多语言场景下的关系抽取结果的准确性。
-
公开(公告)号:CN110852066A
公开(公告)日:2020-02-28
申请号:CN201810827459.7
申请日:2018-07-25
Applicant: 清华大学
IPC: G06F40/211 , G06N5/02 , G06N3/04
Abstract: 本发明提供的一种基于对抗训练机制的多语言实体关系抽取方法及系统,将目标实体对相关的各语言中的目标句子分别编码到各语言对应的独立语义空间和所有语言对应的一致性语义空间,获得目标句子中蕴含的各语言独立的信息和跨语言的一致的信息;再分别采用各语言独立的注意力机制和各语言间一致的注意力机制衡量每个目标句子相对各关系类型的注意力权重,最终结合所有目标句子相对各关系类型的注意力权重获得各关系类型对应的全局概率,从各关系类型对应的全局概率中选取出最大概率,最终即可根据最大概率对应的关系类型预测目标实体对之间的关系。该方法及系统能够深层地利用多语言间的互补性,有效提高了多语言场景下的关系抽取结果的准确性。
-
-
-