发明公开
- 专利标题: 基于tensorflow的多任务弹性调度方法及系统
-
申请号: CN202011456701.8申请日: 2020-12-10
-
公开(公告)号: CN112463340A公开(公告)日: 2021-03-09
- 发明人: 李迅 , 周覃 , 张彦铎 , 尹健南 , 王重九 , 崔恒
- 申请人: 武汉工程大学
- 申请人地址: 湖北省武汉市洪山区雄楚大街693号
- 专利权人: 武汉工程大学
- 当前专利权人: 武汉工程大学
- 当前专利权人地址: 湖北省武汉市洪山区雄楚大街693号
- 代理机构: 湖北武汉永嘉专利代理有限公司
- 代理商 许美红
- 主分类号: G06F9/48
- IPC分类号: G06F9/48 ; G06F9/50 ; G06T1/20 ; G06N20/00
摘要:
本发明公开了一种基于tensorflow的多任务弹性调度方法及系统,其中方法包括以下步骤:利用任务管理系统对进入集群中的任务进行预处理,允许集群中存在多个任务同时进行;从任务管理系统的配置文件中获取集群中所有GPU资源数量,利用可用GPU数量为训练任务划分数据集,将每部分数据集划分到指定GPU;在每个GPU上为任务弹性分配显存资源,弹性扩展空闲GPU以提升训练速度;在每部分数据集上完成梯度下降,获得每部分的当前梯度;利用群集间的通信将梯度进行累加得到当前的总梯度;将总梯度广播至每个GPU,再进行下一次梯度下降。本发明能够弹性的调度多任务进入到集群中,利用集群已有资源高效的完成分布式计算。