基于电力运检业务的大模型推理加速方法及系统
摘要:
本发明提供基于电力运检业务的大模型推理加速方法及系统,方法包括:多任务请求的调度,该调度将多个请求拼成一个输入作为整体网络的输入,在生成式对话中,可以做到一次回答多个请求问题;GPT网络,包括:Transformer Attention和Feed Forward Network组成,在预训练电力设备运检业务模型的一次解码Decode后的解码过程中,采用CUDA算子调用所述kv_cache,以调整kv_cache的形状,据以处理得到重构GPT网络模型;利用贪心算法将GPT模型的输出转化为一个token或者一个字。本发明解决了管理操作工作量大、电力设备运检业务信息总结不便以及维护成本高的技术问题。
0/0