大语言模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN118211065A

    公开(公告)日:2024-06-18

    申请号:CN202410275666.1

    申请日:2024-03-11

    发明人: 叶忻 林梓佳

    摘要: 本公开关于一种大语言模型的训练方法、装置、电子设备及存储介质,该方法包括:在对大语言模型训练的当前阶段,通过前一阶段训练后的代理模型对当前训练数据集中的训练文本进行分类,得到第一分类结果;根据第一分类结果,对前一阶段训练后的大语言模型进行当前阶段的训练;根据第一分类结果,对前一阶段的代理模型进行训练,得到当前阶段的代理模型;通过代理模型对训练文本进行分类,得到第二分类结果;对第二分类结果进行校对,得到校对结果;根据校对结果对代理模型进行重新训练,得到当前阶段重新训练后的代理模型;将下一阶段作为当前阶段,并迭代执行上述各步骤,直至所述大语言模型训练完成。本公开可以提高训练效率,减少计算资源消耗。