一种资源受限条件下大模型的推理系统及其方法
摘要:
本发明涉及一种资源受限条件下大模型的推理系统及其方法,该系统包括RCH主机,RCH主机内部署有内存模块和P‑Cache模块,该方法包括:将待推理的大模型数据文件进行分片处理,得到多个分片及对应的模型分片映射表;将多个分片按先后顺序保存至P‑Cache模块中、将模型分片映射表保存至内存模块中;内存模块内推理引擎接收推理请求指令,启动推理过程,通过滑动窗口方式依次加载P‑Cache模块中的各个分片进行推理计算,直至加载推理至最后一个分片,输出得到最终推理结果。与现有技术相比,本发明通过以时间换空间的串行累加方式,能够在单一独立的移动终端设备上执行大模型推理过程,提高部署的灵活性。
0/0