生成式语言模型训练方法、装置及设备

    公开(公告)号:CN117370502A

    公开(公告)日:2024-01-09

    申请号:CN202210738369.7

    申请日:2022-06-27

    摘要: 本发明提供的一种生成式语言模型训练方法、装置及设备,所述方法将多组对话数据输入到生成式语言模型;基于所述生成式语言模型,确定每一组对话数据中对话上文和对话下文分别对应的语义表征,以及每一组对话数据对应的预测响应;根据多组对话数据对应的语义表征,确定互信息矩阵;所述互信息矩阵中的每一数值用于表示对应的两个语义表征之间的相关程度;根据所述互信息矩阵和多组对话数据对应的预测响应,对所述生成式语言模型进行更新,通过基于互信息矩阵对模型进行更新,使得模型输出的预测响应与对话上文的语义表征之间的互信息增大,减少输出普适回复的预测响应,从而提高生成的响应的准确度。