一种大语言模型推理加速方法及系统
Abstract:
本发明提供了一种大语言模型推理加速方法及系统。其中,该方法首先基于聚类算法将模型参数分组为不同的参数集群。然后,基于所述参数集群,使用图论算法生成至少一个任务调度计划用于并行计算。在执行并行计算时,该方法采用流水线技术和根据实时系统状态动态调整的优先级机制,实现了推理任务的高效并行执行,并生成模型推理的中间计算结果。最后,该方法应用基于神经网络的加权融合算法,对这些中间计算结果进行整合和加权处理,从而生成大型语言模型的最终推理结果。这种综合应用多种优化技术的方法不仅提高了推理速度,还确保了结果的准确性和可靠性。
Public/Granted literature
Patent Agency Ranking
0/0