发明公开
- 专利标题: 模型的蒸馏方法、装置、电子设备及存储介质
-
申请号: CN202010516895.X申请日: 2020-06-09
-
公开(公告)号: CN111832701A公开(公告)日: 2020-10-27
- 发明人: 苏炜跃 , 冯仕堃 , 朱志凡 , 李伟彬 , 何径舟 , 黄世维
- 申请人: 北京百度网讯科技有限公司
- 申请人地址: 北京市海淀区上地十街10号百度大厦2层
- 专利权人: 北京百度网讯科技有限公司
- 当前专利权人: 北京百度网讯科技有限公司
- 当前专利权人地址: 北京市海淀区上地十街10号百度大厦2层
- 代理机构: 北京清亦华知识产权代理事务所
- 代理商 韩海花
- 主分类号: G06N3/04
- IPC分类号: G06N3/04 ; G06N3/08
摘要:
本申请公开了模型的蒸馏方法、装置、电子设备及存储介质,涉及深度学习技术领域。具体实现方案为:首先,获取教师模型和学生模型;接着,根据教师模型第一中间全连接层的第一数据处理量和学生模型第二中间全连接层的第二数据处理量,将第二中间全连接层转换为放大全连接层和缩小全连接层,并用放大全连接层和缩小全连接层对第二中间全连接层进行替代以生成训练学生模型;之后,根据教师模型对训练学生模型进行蒸馏训练。该方法通过将第二中间全连接层替换为放大全连接层和缩小全连接层,并根据教师模型对训练学生模型进行蒸馏训练,由此,在训练学生模型的中间层进行蒸馏,不需要引入额外全连接层,没有参数冗余,极大地提高了蒸馏效率和效果。
公开/授权文献
- CN111832701B 模型的蒸馏方法、装置、电子设备及存储介质 公开/授权日:2023-09-22