发明公开
- 专利标题: 基于LSF的多主机多GPU分布式布置深度学习模型的方法
-
申请号: CN202210487185.8申请日: 2022-05-06
-
公开(公告)号: CN114968559A公开(公告)日: 2022-08-30
- 发明人: 徐恩格 , 易寅辉 , 单晓冬 , 蒋鹏飞 , 鲍复劼
- 申请人: 苏州国科综合数据中心有限公司
- 申请人地址: 江苏省苏州市工业园区星湖街328号创意产业园A2幢
- 专利权人: 苏州国科综合数据中心有限公司
- 当前专利权人: 苏州国科综合数据中心有限公司
- 当前专利权人地址: 江苏省苏州市工业园区星湖街328号创意产业园A2幢
- 代理机构: 北京同恒源知识产权代理有限公司
- 代理商 廖曦
- 主分类号: G06F9/50
- IPC分类号: G06F9/50 ; G06N3/04 ; G06N3/063
摘要:
本发明涉及一种基于LSF的多主机多GPU分布式布置深度学习模型的方法,属于计算机领域。该方法包括以下步骤:S1:资源申请及调度;S2:使用资源进行深度学习模型的训练。S1在LSF集群下完成,通过LSF的指令申请计算资源,然后在发送任务时使用blaunch指令,使作业得以发送到多台主机。计算资源包括:需要创建的作业总数,等于申请的GPU总数;单台主机的图形处理器GPU个数;每台主机上的作业数,不超过单台主机的GPU个数。在LSF集群下,实现了多主机多GPU分布式布置深度学习模型。这使得用户可以同时使用更多GPU处理同一训练任务。减少训练集数据较大时模型的训练时间。
公开/授权文献
- CN114968559B 基于LSF的多主机多GPU分布式布置深度学习模型的方法 公开/授权日:2023-12-01