模型的蒸馏方法、装置、电子设备及存储介质
摘要:
本申请公开了模型的蒸馏方法、装置、电子设备及存储介质,涉及深度学习技术领域。具体实现方案为:首先,获取教师模型和学生模型;接着,根据教师模型第一中间全连接层的第一数据处理量和学生模型第二中间全连接层的第二数据处理量,将第二中间全连接层转换为放大全连接层和缩小全连接层,并用放大全连接层和缩小全连接层对第二中间全连接层进行替代以生成训练学生模型;之后,根据教师模型对训练学生模型进行蒸馏训练。该方法通过将第二中间全连接层替换为放大全连接层和缩小全连接层,并根据教师模型对训练学生模型进行蒸馏训练,由此,在训练学生模型的中间层进行蒸馏,不需要引入额外全连接层,没有参数冗余,极大地提高了蒸馏效率和效果。
公开/授权文献
0/0