Invention Grant
- Patent Title: 一种大语言模型推理加速方法及系统
-
Application No.: CN202410547529.9Application Date: 2024-05-06
-
Publication No.: CN118133969BPublication Date: 2024-07-09
- Inventor: 赵策 , 王亚 , 屠静 , 李伟伟 , 周勤民 , 张玥 , 雷媛媛 , 孙岩 , 潘亮亮
- Applicant: 卓世未来(天津)科技有限公司
- Applicant Address: 天津市武清区武清开发区福源道北侧创业总部基地C02号楼313室33号
- Assignee: 卓世未来(天津)科技有限公司
- Current Assignee: 卓世未来(天津)科技有限公司
- Current Assignee Address: 天津市武清区武清开发区福源道北侧创业总部基地C02号楼313室33号
- Agency: 北京市广友专利事务所有限责任公司
- Agent 邓琳; 张仲波
- Main IPC: G06N5/04
- IPC: G06N5/04 ; G06F9/48 ; G06F9/52 ; G06F18/231 ; G06F18/25 ; G06N3/0455 ; G06N3/08 ; G06N7/01
Abstract:
本发明提供了一种大语言模型推理加速方法及系统。其中,该方法首先基于聚类算法将模型参数分组为不同的参数集群。然后,基于所述参数集群,使用图论算法生成至少一个任务调度计划用于并行计算。在执行并行计算时,该方法采用流水线技术和根据实时系统状态动态调整的优先级机制,实现了推理任务的高效并行执行,并生成模型推理的中间计算结果。最后,该方法应用基于神经网络的加权融合算法,对这些中间计算结果进行整合和加权处理,从而生成大型语言模型的最终推理结果。这种综合应用多种优化技术的方法不仅提高了推理速度,还确保了结果的准确性和可靠性。
Public/Granted literature
- CN118133969A 一种大语言模型推理加速方法及系统 Public/Granted day:2024-06-04
Information query