基于LSF的多主机多GPU分布式布置深度学习模型的方法
摘要:
本发明涉及一种基于LSF的多主机多GPU分布式布置深度学习模型的方法,属于计算机领域。该方法包括以下步骤:S1:资源申请及调度;S2:使用资源进行深度学习模型的训练。S1在LSF集群下完成,通过LSF的指令申请计算资源,然后在发送任务时使用blaunch指令,使作业得以发送到多台主机。计算资源包括:需要创建的作业总数,等于申请的GPU总数;单台主机的图形处理器GPU个数;每台主机上的作业数,不超过单台主机的GPU个数。在LSF集群下,实现了多主机多GPU分布式布置深度学习模型。这使得用户可以同时使用更多GPU处理同一训练任务。减少训练集数据较大时模型的训练时间。
0/0