发明公开
- 专利标题: 一种提高大模型私人助理上下文能力的方法
-
申请号: CN202410654912.4申请日: 2024-05-24
-
公开(公告)号: CN118607639A公开(公告)日: 2024-09-06
- 发明人: 张峻铭 , 尹青山 , 房兰涛
- 申请人: 山东浪潮超高清智能科技有限公司
- 申请人地址: 山东省济南市历下区中国(山东)自由贸易试验区济南片区浪潮路1036号S06楼北一层西区
- 专利权人: 山东浪潮超高清智能科技有限公司
- 当前专利权人: 山东浪潮超高清智能科技有限公司
- 当前专利权人地址: 山东省济南市历下区中国(山东)自由贸易试验区济南片区浪潮路1036号S06楼北一层西区
- 代理机构: 济南龙瑞知识产权代理有限公司
- 代理商 刘燕丽
- 主分类号: G06N5/04
- IPC分类号: G06N5/04 ; G06N3/084 ; G06N3/0455
摘要:
本发明涉及语言处理及深度学习技术领域,具体涉及一种提高大模型私人助理上下文能力的方法,包括以下步骤:S1、建立基于Transformer模型的优化计算模型;在Transformer模型中引入动态路由机制和残差路径,通过动态路由机制动态选择需要进行计算的tokens进入计算路径,不需要进行计算的tokens进入残差路径;S2、对建立的计算模型进行训练和优化;S3、将训练和优化好的模型用于大模型私人助理的长序列处理。本发明通过在Transformer模型中引入动态计算分配机制,减少不必要的计算资源消耗,并提高模型处理长上下文的效率。