一种基于token增长的高效Transformer神经网络训练方法
摘要:
本发明公开了一种基于token增长的高效Transformer神经网络训练方法,其可以做到在不损失主流Transformer神经网络的最终性能,甚至提升神经网络性能的条件下,提高Transformer网络的训练速度。本发明可以在训练过程中减少Transformer的token数量,同时保留Transformer神经网络的中间特征空间中含有重要信息的token,无需修改原本Transformer神经网络任何超参数、架构和训练策略,在一个token渐进增长的训练框架下完成Transformer的高效训练。本发明的高效Transformer训练方法相比较于业内其他训练方法,处于领先水平。
0/0