一种基于轻量多出口网络的模型压缩与推断加速方法

    公开(公告)号:CN115600675A

    公开(公告)日:2023-01-13

    申请号:CN202211194881.6

    申请日:2022-09-26

    IPC分类号: G06N5/022 G06N5/04 G06F40/30

    摘要: 本发明公开了一种基于轻量多出口网络的模型压缩与推断加速方法,包括以下步骤:1:在用户给定的数据集上训练基于变换器的预训练语言模型,得到教师模型并初始化学生模型;2:构建轻量模型的体积需求,并根据模型体积需求设置词嵌入矩阵中间维度、自注意力头数、前馈网络中间维度;3:使用综合静态压缩与动态加速的联合优化方法训练目标轻量多出口网络模型;4:在推断前根据实际需要设定或改变轻量多出口网络模型的置信度阈值,实现可变程度的加速。本发明设计了一种宽度压缩的多出口模型以优化时间和空间效率,大幅降低存储计算开销,减小压缩后的多出口模型因各层不一致导致的性能下降,弥补了静态压缩和动态加速的结合导致模型性能大幅降低的问题。