一种基于大语言模型的GPU高性能精调训练方法及系统

    公开(公告)号:CN117633530A

    公开(公告)日:2024-03-01

    申请号:CN202311579625.3

    申请日:2023-11-24

    Abstract: 本发明公开了一种基于大语言模型的GPU高性能精调训练方法及系统,该方法包括以下步骤:S1、获取大语言模型、初始训练数据,所述大语言模型包括若干个工作节点、若干个参数矩阵,所述大语言模型为每个所述工作节点分配对应的所述参数矩阵;S2、将所述大语言模型的训练划分为模型推理阶段和梯度通信阶段;S3、在所述模型推理阶段,基于低秩分解策略将所述参数矩阵划分为低维子矩阵,并得到梯度矩阵;S4、在所述梯度通信阶段,基于双重压缩对所述梯度矩阵进行压缩,替换并更新所述参数矩阵;S5、基于替换更新后的参数矩阵在对应的工作节点中进行训练。本发明基于大语言模型的GPU高性能精调训练方法及系统具有计算速度快、占用内存少的特点。

Patent Agency Ranking