-
公开(公告)号:CN117371516A
公开(公告)日:2024-01-09
申请号:CN202311119840.5
申请日:2023-09-01
Applicant: 广州大学
IPC: G06N3/098 , G06N3/084 , G06N3/0455
Abstract: 本发明公开了一种基于网内计算的加速AI大模型分布式训练方法及装置,方法包括:本发明在“PS架构+数据并行”的模式下,参数服务器PS利用梯度路由机制发现梯度分组和模型分组的最优转发路径,并构建以PS为树根的模型聚合树;每个计算节点worker本地训练得到梯度并形成梯度分组,再多次采用基于随机线性网络编码的分时梯度聚合机制将梯度分组发到参数服务器PS;参数服务器PS将接收到的梯度转换为浮点数,进行模型更新,获得最新的全局模型参数;通过网内克隆操作将更新后的全局模型参数推送到所有计算节点worker;各个worker更新自己的模型参数;上述过程多次迭代后,完成分布式训练。本发明可在不损害模型精度且无需大量增加计算的前提下,显著减少通信量。
-
公开(公告)号:CN117273120A
公开(公告)日:2023-12-22
申请号:CN202311119841.X
申请日:2023-09-01
Applicant: 广州大学
IPC: G06N3/098 , G06N3/092 , G06N3/0464 , G06N3/084
Abstract: 本发明公开一种基于模型预测的加速AI大模型分布式训练的方法及装置,方法包括,构建分层参数数据集;利用基于预测结果的评估方法,训练用于预测目标模型的模型参数的预测模型;计算节点更新目标模型的前面一些层的模型参数,然后将它们推送给参数服务器;在参数服务器,对所接收到的模型参数进行聚合,通过预测模型预测得到目标模型的剩余其他层的模型参数;预测出来和聚合后的模型参数被拼接成一个完整模型参数,并被推送给所有计算节点;计算节点使用接收到的完整模型参数替换本地的模型参数;所述预测模型采用“卷积+通道注意力机制+池化”结构,本发明能够保持目标模型的准确率不变的情况下,大量减少通信量同时不会引入大量计算开销。
-
公开(公告)号:CN115169545A
公开(公告)日:2022-10-11
申请号:CN202210649151.4
申请日:2022-06-10
Applicant: 广州大学
Abstract: 本发明涉及分布式机器学习技术领域,且公开了一种加速分布式机器学习的自适应同步机制,该机制在改善梯度过时的目标下,对不同训练速度的工作节点自适应地采用不同的并行训练方案,改进了现有的BSP和ASP方案。基于最快工作节点和最慢工作节点间的过时值,本机制自适应地为更快的工作节点添加松弛的同步屏障,以限制或减小该过时值,从而改善梯度过时,为减少此同步中慢梯度的影响,使用了一种差异化加权的梯度聚合方法用于聚合梯度,在限制快工作节点的同时,机制对慢工作节点采用异步并行训练方案,以加快慢工作节点的训练速度,通过以上策略,本机制改善了ASP中的梯度过时问题,克服了BSP的“掉队者”问题,能够提高分布式机器学习训练的速度。
-
-