一种大语言模型推理加速方法及系统

Invention Grant

Please log in to see more content

Patent Title: 一种大语言模型推理加速方法及系统
Application No.: CN202410547529.9

Application Date: 2024-05-06
Publication No.: CN118133969B

Publication Date: 2024-07-09
Inventor: 赵策 , 王亚 , 屠静 , 李伟伟 , 周勤民 , 张玥 , 雷媛媛 , 孙岩 , 潘亮亮
Applicant: 卓世未来(天津)科技有限公司
Applicant Address: 天津市武清区武清开发区福源道北侧创业总部基地C02号楼313室33号
Assignee: 卓世未来(天津)科技有限公司
Current Assignee: 卓世未来(天津)科技有限公司
Current Assignee Address: 天津市武清区武清开发区福源道北侧创业总部基地C02号楼313室33号
Agency: 北京市广友专利事务所有限责任公司
Agent 邓琳; 张仲波
Main IPC: G06N5/04
IPC: G06N5/04 ; G06F9/48 ; G06F9/52 ; G06F18/231 ; G06F18/25 ; G06N3/0455 ; G06N3/08 ; G06N7/01

Abstract:

本发明提供了一种大语言模型推理加速方法及系统。其中，该方法首先基于聚类算法将模型参数分组为不同的参数集群。然后，基于所述参数集群，使用图论算法生成至少一个任务调度计划用于并行计算。在执行并行计算时，该方法采用流水线技术和根据实时系统状态动态调整的优先级机制，实现了推理任务的高效并行执行，并生成模型推理的中间计算结果。最后，该方法应用基于神经网络的加权融合算法，对这些中间计算结果进行整合和加权处理，从而生成大型语言模型的最终推理结果。这种综合应用多种优化技术的方法不仅提高了推理速度，还确保了结果的准确性和可靠性。

Public/Granted literature

CN118133969A 一种大语言模型推理加速方法及系统 Public/Granted day:2024-06-04

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06N	基于特定计算模型的计算机系统
G06N5/00	利用基于知识的模式的计算机系统
G06N5/04	.推理方法或设备