模型训练加速方法和装置
    16.
    发明公开

    公开(公告)号:CN118798283A

    公开(公告)日:2024-10-18

    申请号:CN202311782784.3

    申请日:2023-12-22

    IPC分类号: G06N3/063 G06N3/084

    摘要: 本申请公开了一种模型训练加速方法和装置,该模型训练加速方法包括:在模型训练过程中,对梯度变化率低于冻结阈值的网络层进行冻结,所述冻结用于使得所述网络层停止反向传播;根据衰减系数对所述冻结阈值进行衰减处理,得到衰减冻结阈值;利用未冻结的网络层进行模型训练,对梯度变化率低于所述衰减冻结阈值的网络层进行冻结,直至所述模型训练达到预设精度或预设次数为止。本申请实施例在模型训练过程中逐渐冻结部分网络层,以停止反向传播,有效减少了显存占用提升运算效率,提升训练速度,同时对冻结阈值进行衰减处理,避免提前将未训练收敛的网络层冻结的情况发生。