云端协同的深度学习模型分布式训练方法及系统
摘要:
本发明涉及一种云端协同的深度学习模型分布式训练方法及系统,所述训练方法包括:客户端接收用户输入的关于深度学习网络的训练任务;客户端根据所述训练任务调取网络配置和训练信息;云服务器根据网络配置和本地设备的资源情况,筛选出能够用于训练的各训练本地设备;云服务器根据所述网络配置和训练信息,生成多个训练子任务;云服务器将各训练子任务分别发送到不同的训练本地设备中;云服务器与各训练本地设备根据网络配置,对对应的训练子任务进行训练,以实现对深度学习网络的分布式训练。本发明通过云端协同实现了分布式资源的发现和筛选,从而可在深度学习模型分布式训练时合理有效的利用资源。
0/0