一种提高大模型私人助理上下文能力的方法
摘要:
本发明涉及语言处理及深度学习技术领域,具体涉及一种提高大模型私人助理上下文能力的方法,包括以下步骤:S1、建立基于Transformer模型的优化计算模型;在Transformer模型中引入动态路由机制和残差路径,通过动态路由机制动态选择需要进行计算的tokens进入计算路径,不需要进行计算的tokens进入残差路径;S2、对建立的计算模型进行训练和优化;S3、将训练和优化好的模型用于大模型私人助理的长序列处理。本发明通过在Transformer模型中引入动态计算分配机制,减少不必要的计算资源消耗,并提高模型处理长上下文的效率。
0/0