-
公开(公告)号:CN113515948A
公开(公告)日:2021-10-19
申请号:CN202110031416.X
申请日:2021-01-11
Applicant: 腾讯科技(深圳)有限公司 , 上海交通大学
IPC: G06F40/30 , G06F40/205 , G06N3/08 , G06N3/04
Abstract: 本申请实施例提供了一种语言模型训练方法、装置、设备及存储介质,涉及机器学习技术领域。所述方法包括:基于全量预训练语料对初始的学生语言模型进行全量预训练,得到全量预训练后的学生语言模型;基于增量预训练语料对全量预训练后的学生语言模型进行增量预训练,得到增量预训练后的学生语言模型;其中,增量预训练语料是在全量预训练语料的基础上新增的预训练语料;采用教师语言模型对增量预训练后的学生语言模型进行知识蒸馏处理,得到蒸馏后的学生语言模型;采用目标任务的第二训练样本集,对蒸馏后的学生语言模型进行参数调整处理,得到完成训练的学生语言模型。采用本申请实施例提供的技术方案,能够节省语言模型训练的时间。