大模型的分布式训练方法、装置及电子设备
摘要:
本发明提供了一种大模型的分布式训练方法、装置及电子设备,涉及人工智能技术领域,本发明能够获取资源需求配置信息和待训练的大模型的模型配置信息;基于资源需求配置信息和模型配置信息,依次对大模型的模型结构和应用数据进行流水线并行和张量并行的切分;对当前切分结果进行时间维度和资源维度的评价,得到当前评价指数值;基于当前评价指数值对当前切分结果进行优化,得到大模型的目标切分结果,以基于目标切分结果对大模型进行分布式训练。这样用户只需要给出资源需求和大模型的模型配置信息,即可进行动态组网,且优化时考虑了时间维度和资源维度,因此可以提高训练精度,最大化并行性能。
公开/授权文献
0/0