基于知识蒸馏恢复策略剪枝的长短期记忆压缩方法

    公开(公告)号:CN116861257A

    公开(公告)日:2023-10-10

    申请号:CN202311033595.6

    申请日:2023-08-16

    Abstract: 本发明公开了一种基于知识蒸馏恢复策略剪枝的长短期记忆压缩方法,在知识蒸馏的实现中,除了引入蒸馏损失用于学生模型拟合教师模型的logits输出,还使用输出概率分布与真实标签的交叉熵损失,以确保学生模型的输出与样本的真实标签相互匹配。这两部分损失共同构成目标函数,帮助学生模型从教师模型的“暗知识”中进行学习,优化模型的输出概率分布,从而提高剪枝模型的准确率。另外,本发明将知识蒸馏应用于LSTM模型的剪枝过程中,通过合理传递知识,使得剪枝后的模型具备更强的表征能力。

Patent Agency Ranking