一种提高大模型私人助理上下文能力的方法

发明公开

CN118607639A 一种提高大模型私人助理上下文能力的方法审中-实审

请登陆查看更多内容

专利标题： 一种提高大模型私人助理上下文能力的方法
申请号： CN202410654912.4

申请日： 2024-05-24
公开(公告)号： CN118607639A

公开(公告)日： 2024-09-06
发明人: 张峻铭 , 尹青山 , 房兰涛
申请人： 山东浪潮超高清智能科技有限公司
申请人地址： 山东省济南市历下区中国(山东)自由贸易试验区济南片区浪潮路1036号S06楼北一层西区
专利权人： 山东浪潮超高清智能科技有限公司
当前专利权人： 山东浪潮超高清智能科技有限公司
当前专利权人地址： 山东省济南市历下区中国(山东)自由贸易试验区济南片区浪潮路1036号S06楼北一层西区
代理机构： 济南龙瑞知识产权代理有限公司
代理商 刘燕丽
主分类号： G06N5/04
IPC分类号： G06N5/04 ; G06N3/084 ; G06N3/0455

摘要：

本发明涉及语言处理及深度学习技术领域，具体涉及一种提高大模型私人助理上下文能力的方法，包括以下步骤：S1、建立基于Transformer模型的优化计算模型；在Transformer模型中引入动态路由机制和残差路径，通过动态路由机制动态选择需要进行计算的tokens进入计算路径，不需要进行计算的tokens进入残差路径；S2、对建立的计算模型进行训练和优化；S3、将训练和优化好的模型用于大模型私人助理的长序列处理。本发明通过在Transformer模型中引入动态计算分配机制，减少不必要的计算资源消耗，并提高模型处理长上下文的效率。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06N	基于特定计算模型的计算机系统
G06N5/00	利用基于知识的模式的计算机系统
G06N5/04	.推理方法或设备