模型优化方法、装置、电子设备及可读存储介质

    公开(公告)号:CN113554169A

    公开(公告)日:2021-10-26

    申请号:CN202110859734.5

    申请日:2021-07-28

    IPC分类号: G06N3/08 G06N3/04

    摘要: 本申请提供一种模型优化方法、装置、电子设备及可读存储介质,该方法包括:对当前网络模型进行预设轮数的稀疏约束训练,并依据预设阈值对训练后的第一网络模型进行裁剪,得到第一裁后模型;对第一裁后模型的各层进行等比例扩充,并对扩充后的网络模型进行非稀疏约束训练;迭代执行上述操作,直至得到的第二网络模型满足预设停止规则时,确定迭代完成;依据预设裁后计算量,以及迭代过程中得到的第二网络模型,确定第二裁后模型;依据第二裁后模型,对原始网络模型进行变权重稀疏约束训练,得到原始网络模型对应的稀疏模型,并对所述稀疏模型进行离线裁剪。该方法可以实现基于变权重稀疏约束的网络模型自动裁剪。

    任务处理方法、装置、电子设备及存储介质

    公开(公告)号:CN115062765A

    公开(公告)日:2022-09-16

    申请号:CN202210709171.6

    申请日:2022-06-21

    IPC分类号: G06N3/04 G06N3/08 G06N5/04

    摘要: 本申请提供一种任务处理方法、装置、电子设备及存储介质,该方法包括:在对Transformer模型进行训练的过程中,对于Transformer模型中的任一归一化层,确定该归一化层当前批次的第一统计值,依据该第一统计值以及该归一化层历史批次的统计值,利用滑动平均策略,对该第一统计值进行平滑处理,得到第二统计值,并利用将该归一化层的第二统计值进行前向或反向传播;在利用训练好的Transformer模型进行任务处理的过程中,对于Transformer模型中的任一归一化层,将该归一化层的统计值固定为第三统计值进行推理计算。该方法可以在降低Transformer模型的计算内存消耗的情况下,保证处理性能。

    神经网络模型裁剪方法、装置、电子设备及存储介质

    公开(公告)号:CN114897164A

    公开(公告)日:2022-08-12

    申请号:CN202210615980.0

    申请日:2022-05-31

    摘要: 本申请提供一种神经网络模型裁剪方法、装置、电子设备及存储介质,该方法包括:依据待裁剪神经网络模型的结构特性,将所述待裁剪神经网络模型划分为多个结构分组;依据对所述待裁剪神经网络模型进行裁剪前后的损失函数变化,确定对所述多个结构分组中各结构分组进行裁剪的目标裁剪率;其中,所述损失函数变化依据第一因子和第二因子确定,所述第一因子用于表征各结构分组中各个权重的重要性,所述第二因子用于表征不同结构分组之间的相互作用;依据所述目标裁剪率,分别对各结构分组进行裁剪,得到裁剪后的神经网络模型。该方法可以在较小性能损失的情况下加速压缩神经网络模型。

    模型优化方法、装置、电子设备及可读存储介质

    公开(公告)号:CN113554169B

    公开(公告)日:2023-10-27

    申请号:CN202110859734.5

    申请日:2021-07-28

    IPC分类号: G06N3/082 G06N3/045

    摘要: 本申请提供一种模型优化方法、装置、电子设备及可读存储介质,该方法包括:对当前网络模型进行预设轮数的稀疏约束训练,并依据预设阈值对训练后的第一网络模型进行裁剪,得到第一裁后模型;对第一裁后模型的各层进行等比例扩充,并对扩充后的网络模型进行非稀疏约束训练;迭代执行上述操作,直至得到的第二网络模型满足预设停止规则时,确定迭代完成;依据预设裁后计算量,以及迭代过程中得到的第二网络模型,确定第二裁后模型;依据第二裁后模型,对原始网络模型进行变权重稀疏约束训练,得到原始网络模型对应的稀疏模型,并对所述稀疏模型进行离线裁剪。该方法可以实现基于变权重稀疏约束的网络模型自动裁剪。

    基于多智能体强化学习的去混淆游戏策略模型生成方法

    公开(公告)号:CN115300910A

    公开(公告)日:2022-11-08

    申请号:CN202210836775.7

    申请日:2022-07-15

    申请人: 浙江大学

    摘要: 本发明公开了一种基于多智能体强化学习的去混淆游戏策略模型生成方法。本发明将深度学、因果推理、图网络结合在面向游戏智能体控制的多智能体强化学习中。相比于一般的多智能体强化学习算法,本发明利用因果推理中的后门准则和图网络来去除多智能体强化学习中由环境带来的混淆,有效地提升了游戏策略模型的整体性能。本发明首次在基于多智能体强化学习中的游戏策略模型生成中应用因果推理技术去除混淆,与其他主流的方法相比,本发明的性能更加优越。