一种模型训练方法及其相关设备
    1.
    发明公开

    公开(公告)号:CN117422122A

    公开(公告)日:2024-01-19

    申请号:CN202310492136.8

    申请日:2023-05-04

    发明人: 任晓哲 姜卓 蒋欣

    摘要: 本申请公开了一种模型训练方法及其相关设备,可降低模型的训练过程所需的总时间成本。本申请的方法包括:在待训练模型的第t次迭代中,得到待训练模型的第N层在第t次迭代中的梯度后,可立即基于第t‑1次迭代中的全局梯度范数的移动平均值MGGN,对第N层在第t次迭代中的梯度进行归一化,从而得到第N层在第t次迭代中的归一化后的梯度,以此类推,得到第1层在第t次迭代中的梯度后,可立即基于第t‑1次迭代中的MGGN,对第1层在第t次迭代中的梯度进行归一化,从而得到第1层在第t次迭代中的归一化后的梯度。如此一来,可基于第1层至第N层在第t次迭代中的归一化后的梯度,对第1层至第N层的参数进行更新,从而完成了待训练模型的第t次迭代。