发明公开
- 专利标题: 一种资源受限条件下大模型的推理系统及其方法
-
申请号: CN202311776393.0申请日: 2023-12-21
-
公开(公告)号: CN117873710A公开(公告)日: 2024-04-12
- 发明人: 马钰璐
- 申请人: 号百信息服务有限公司
- 申请人地址: 上海市虹口区四川北路61号13-19楼
- 专利权人: 号百信息服务有限公司
- 当前专利权人: 号百信息服务有限公司
- 当前专利权人地址: 上海市虹口区四川北路61号13-19楼
- 代理机构: 上海科盛知识产权代理有限公司
- 代理商 廖程
- 主分类号: G06F9/50
- IPC分类号: G06F9/50 ; G06F9/48 ; G06N5/04
摘要:
本发明涉及一种资源受限条件下大模型的推理系统及其方法,该系统包括RCH主机,RCH主机内部署有内存模块和P‑Cache模块,该方法包括:将待推理的大模型数据文件进行分片处理,得到多个分片及对应的模型分片映射表;将多个分片按先后顺序保存至P‑Cache模块中、将模型分片映射表保存至内存模块中;内存模块内推理引擎接收推理请求指令,启动推理过程,通过滑动窗口方式依次加载P‑Cache模块中的各个分片进行推理计算,直至加载推理至最后一个分片,输出得到最终推理结果。与现有技术相比,本发明通过以时间换空间的串行累加方式,能够在单一独立的移动终端设备上执行大模型推理过程,提高部署的灵活性。