基于tensorflow的多任务弹性调度方法及系统
摘要:
本发明公开了一种基于tensorflow的多任务弹性调度方法及系统,其中方法包括以下步骤:利用任务管理系统对进入集群中的任务进行预处理,允许集群中存在多个任务同时进行;从任务管理系统的配置文件中获取集群中所有GPU资源数量,利用可用GPU数量为训练任务划分数据集,将每部分数据集划分到指定GPU;在每个GPU上为任务弹性分配显存资源,弹性扩展空闲GPU以提升训练速度;在每部分数据集上完成梯度下降,获得每部分的当前梯度;利用群集间的通信将梯度进行累加得到当前的总梯度;将总梯度广播至每个GPU,再进行下一次梯度下降。本发明能够弹性的调度多任务进入到集群中,利用集群已有资源高效的完成分布式计算。
0/0