发明公开
- 专利标题: 训练推理一体深度学习的GPU集群调度方法
-
申请号: CN202310055908.1申请日: 2023-01-16
-
公开(公告)号: CN116048802A公开(公告)日: 2023-05-02
- 发明人: 尹建伟 , 陈振乾 , 赵新奎 , 智晨
- 申请人: 浙江大学
- 申请人地址: 浙江省杭州市西湖区余杭塘路866号
- 专利权人: 浙江大学
- 当前专利权人: 浙江大学
- 当前专利权人地址: 浙江省杭州市西湖区余杭塘路866号
- 代理机构: 杭州天勤知识产权代理有限公司
- 代理商 王琛
- 主分类号: G06F9/50
- IPC分类号: G06F9/50 ; G06F9/48 ; G06F18/214
摘要:
本发明公开了一种训练推理一体深度学习的GPU集群调度方法,能够实现推理的在线业务和训练的离线业务混合部署,在保障推理任务服务质量的前提下,提高集群资源利用率,降低训练任务训练开销。本发明充分考虑到训‑推任务混部调度下的挑战,使用低复杂度的背包算法建模和调度训练任务,省去了遗传算法在大规模集群和负载情况下的高调度开销;实现推理调度算法管理训练推理集群计算资源,降低训‑推集群资源借出与回收阶段对训练、推理任务的影响;引入自适应弹性训练,在快速弹性训练的基础上,引入超参数优化环节,在额外开销可以忽略不计的情况下,降低训练任务总体执行时间。