训练推理一体深度学习的GPU集群调度方法
摘要:
本发明公开了一种训练推理一体深度学习的GPU集群调度方法,能够实现推理的在线业务和训练的离线业务混合部署,在保障推理任务服务质量的前提下,提高集群资源利用率,降低训练任务训练开销。本发明充分考虑到训‑推任务混部调度下的挑战,使用低复杂度的背包算法建模和调度训练任务,省去了遗传算法在大规模集群和负载情况下的高调度开销;实现推理调度算法管理训练推理集群计算资源,降低训‑推集群资源借出与回收阶段对训练、推理任务的影响;引入自适应弹性训练,在快速弹性训练的基础上,引入超参数优化环节,在额外开销可以忽略不计的情况下,降低训练任务总体执行时间。
0/0