训练推理一体深度学习的GPU集群调度方法

Invention Publication

CN116048802A 训练推理一体深度学习的GPU集群调度方法审中-实审

Please log in to see more content

Patent Title: 训练推理一体深度学习的GPU集群调度方法
Application No.: CN202310055908.1

Application Date: 2023-01-16
Publication No.: CN116048802A

Publication Date: 2023-05-02
Inventor: 尹建伟 , 陈振乾 , 赵新奎 , 智晨
Applicant: 浙江大学
Applicant Address: 浙江省杭州市西湖区余杭塘路866号
Assignee: 浙江大学
Current Assignee: 浙江大学
Current Assignee Address: 浙江省杭州市西湖区余杭塘路866号
Agency: 杭州天勤知识产权代理有限公司
Agent 王琛
Main IPC: G06F9/50
IPC: G06F9/50 ; G06F9/48 ; G06F18/214

Abstract:

本发明公开了一种训练推理一体深度学习的GPU集群调度方法，能够实现推理的在线业务和训练的离线业务混合部署，在保障推理任务服务质量的前提下，提高集群资源利用率，降低训练任务训练开销。本发明充分考虑到训‑推任务混部调度下的挑战，使用低复杂度的背包算法建模和调度训练任务，省去了遗传算法在大规模集群和负载情况下的高调度开销；实现推理调度算法管理训练推理集群计算资源，降低训‑推集群资源借出与回收阶段对训练、推理任务的影响；引入自适应弹性训练，在快速弹性训练的基础上，引入超参数优化环节，在额外开销可以忽略不计的情况下，降低训练任务总体执行时间。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F9/00	程序控制装置，例如，控制单元（用于外部设备的程序控制入G06F13/10）
G06F9/06	.应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9/46	..多道程序装置
G06F9/50	...资源分配，例如，中央处理单元[CPU]的