- 专利标题: 一种基于token增长的高效Transformer神经网络训练方法
-
申请号: CN202410041372.2申请日: 2024-01-11
-
公开(公告)号: CN117892790A公开(公告)日: 2024-04-16
- 发明人: 林绍辉 , 黄文轩 , 谢娇
- 申请人: 华东师范大学
- 申请人地址: 上海市闵行区东川路500号
- 专利权人: 华东师范大学
- 当前专利权人: 华东师范大学
- 当前专利权人地址: 上海市闵行区东川路500号
- 代理机构: 上海蓝迪专利商标事务所
- 代理商 徐筱梅; 张翔
- 主分类号: G06N3/084
- IPC分类号: G06N3/084 ; G06N3/0455
摘要:
本发明公开了一种基于token增长的高效Transformer神经网络训练方法,其可以做到在不损失主流Transformer神经网络的最终性能,甚至提升神经网络性能的条件下,提高Transformer网络的训练速度。本发明可以在训练过程中减少Transformer的token数量,同时保留Transformer神经网络的中间特征空间中含有重要信息的token,无需修改原本Transformer神经网络任何超参数、架构和训练策略,在一个token渐进增长的训练框架下完成Transformer的高效训练。本发明的高效Transformer训练方法相比较于业内其他训练方法,处于领先水平。