针对语言模型的并行调度方法、装置、设备及存储介质
Abstract:
本申请公开了一种针对语言模型的并行调度方法、装置、设备及存储介质,方法包括根据将待处理数据批划分为若干子数据批并分配至不同工作端;根据工作端的各计算节点实时用于执行所述待处理数据批时的显存使用率将语言模型的张量划分为若干张量块,将各张量块配置于不同计算节点;控制各计算节点并行运行语言模型的推理过程以得到输出数据。本申请通过在执行语言模型的推理过程中根据工作端的各计算节点在用于执行每个待处理数据批时的显存使用率对张量进行动态划分,使得各计算节点分配到的张量块的大小可以根据显存使用率来动态调节,有效提高了计算节点的显存利用率,减少显存冗余,提高了语言模型的推理速度,从而缩短了语言模型的训练时间。
Patent Agency Ranking
0/0