基于LSF的多主机多GPU分布式布置深度学习模型的方法

发明授权

CN114968559B 基于LSF的多主机多GPU分布式布置深度学习模型的方法有权

请登陆查看更多内容

专利标题： 基于LSF的多主机多GPU分布式布置深度学习模型的方法
申请号： CN202210487185.8

申请日： 2022-05-06
公开(公告)号： CN114968559B

公开(公告)日： 2023-12-01
发明人: 徐恩格 , 易寅辉 , 单晓冬 , 蒋鹏飞 , 鲍复劼
申请人： 苏州国科综合数据中心有限公司
申请人地址： 江苏省苏州市工业园区星湖街328号创意产业园A2幢
专利权人： 苏州国科综合数据中心有限公司
当前专利权人： 苏州国科综合数据中心有限公司
当前专利权人地址： 江苏省苏州市工业园区星湖街328号创意产业园A2幢
代理机构： 北京同恒源知识产权代理有限公司
代理商 廖曦
主分类号： G06F9/50
IPC分类号： G06F9/50 ; G06N3/04 ; G06N3/063

摘要：

本发明涉及一种基于LSF的多主机多GPU分布式布置深度学习模型的方法，属于计算机领域。该方法包括以下步骤：S1：资源申请及调度；S2：使用资源进行深度学习模型的训练。S1在LSF集群下完成，通过LSF的指令申请计算资源，然后在发送任务时使用blaunch指令，使作业得以发送到多台主机。计算资源包括：需要创建的作业总数，等于申请的GPU总数；单台主机的图形处理器GPU个数；每台主机上的作业数，不超过单台主机的GPU个数。在LSF集群下，实现了多主机多GPU分布式布置深度学习模型。这使得用户可以同时使用更多GPU处理同一训练任务。减少训练集数据较大时模型的训练时间。

公开/授权文献

CN114968559A 基于LSF的多主机多GPU分布式布置深度学习模型的方法公开/授权日：2022-08-30

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F9/00	程序控制装置，例如，控制单元（用于外部设备的程序控制入G06F13/10）
G06F9/06	.应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9/46	..多道程序装置
G06F9/50	...资源分配，例如，中央处理单元[CPU]的