作业调度方法、装置、存储介质及电子设备
摘要:
本申请公开了一种作业调度方法、装置、存储介质及电子设备,涉及计算机技术领域。方法包括:接收深度学习训练作业模型;根据深度学习训练作业模型配置状态集和动作集,状态集包括深度学习训练作业模型所需节点的数量、每个节点所需要的GPU数量和深度学习训练作业模型的特征,动作集用于指示深度学习训练作业模型可以占用的GPU的位置信息;构建DQN神经网络,根据状态集、动作集和奖励值确定DQN神经网络的网络参数;基于网络参数确定深度学习训练作业模型对应的目标节点和目标GPU;将深度学习训练作业模型调度至目标节点和目标GPU。将作业调度与深度学习训练作业模型的特征相结合,以最佳资源位置执行深度学习训练作业,提高了计算效率和资源利用率。
0/0