一种transfomer模型处理方法、可读存储介质及设备
摘要:
本发明提供了一种transfomer模型处理方法、可读存储介质及设备,transfomer模型处理方法包括步骤:在进行训练时,根据transfomer模型的子层权重,计算得到目标层,在下一次训练时,删除或者保留目标层。本发明通过正向传播和反向传播来自动确认需要删除或者保留的子层,即通过本次训练得到的权重去计算下一次训练时需要删除或者保留的子层,进而减少了模型的参数量,实现轻量级的transfomer模型。
0/0