-
公开(公告)号:CN117422122A
公开(公告)日:2024-01-19
申请号:CN202310492136.8
申请日:2023-05-04
IPC分类号: G06N3/084 , G06N3/0455 , G06N3/0464
摘要: 本申请公开了一种模型训练方法及其相关设备,可降低模型的训练过程所需的总时间成本。本申请的方法包括:在待训练模型的第t次迭代中,得到待训练模型的第N层在第t次迭代中的梯度后,可立即基于第t‑1次迭代中的全局梯度范数的移动平均值MGGN,对第N层在第t次迭代中的梯度进行归一化,从而得到第N层在第t次迭代中的归一化后的梯度,以此类推,得到第1层在第t次迭代中的梯度后,可立即基于第t‑1次迭代中的MGGN,对第1层在第t次迭代中的梯度进行归一化,从而得到第1层在第t次迭代中的归一化后的梯度。如此一来,可基于第1层至第N层在第t次迭代中的归一化后的梯度,对第1层至第N层的参数进行更新,从而完成了待训练模型的第t次迭代。