一种基于公有云的分布式深度学习任务资源和批尺寸协同配置方法
Abstract:
本发明设计了一种基于公有云下的分布式深度模型训练任务的资源和批尺寸的协同配置方法。首先,对不同训练模式的训练过程进行分析,并使用资源、批尺寸等参数对训练时间进行公式化表达,建立训练时间预测模型。其次,考虑到资源和批尺寸对于训练损失值的影响以及损失值曲线可以被近似为反比例函数的特性,该方法将损失值收敛曲线使用反比例函数近似表示,并以资源、批尺寸以及其他影响训练损失值收敛的特征为输入,使用机器学习模型对反比例函数中的参数进行预测,建立训练损失值预测模型。最后,该方法以上述的两个预测模型为搜索的约束条件,找到能够最小化训练成本的资源和批尺寸协同配置解。本发明可以在限定时间内达到既定损失值的基础上有效减少训练成本。
Patent Agency Ranking
0/0