基于改进的Ring All Reduce算法的面向深度学习的GPU并行方法

    公开(公告)号:CN113961337B

    公开(公告)日:2024-05-10

    申请号:CN202111073054.7

    申请日:2021-09-14

    摘要: 本发明公开了一种基于改进的RingAllReduce算法的面向深度学习的GPU并行方法,用于提升数据并行多设备间传输效率,缓解传统参数服务器并行结构带宽损耗问题;另外,利用传统深度学习主干网络包含权重参数较全连接层小,同步开销小而全连接层权重庞大梯度传输开销过高这一特点,将主干网络进行数据并行处理,全连接层采用模型并行处理,解决了数据并行模式难以支撑大规模网络参数及加速延缓的问题。相比其他方法,本方法最终测试与训练精度差异不大,但在加速效果上衰减幅度更小,效果更好,实验也发现,相比Cifar10等类别较少的数据集,该方法在miniImageNet上存在更大的加速优势,因此更适用于海量数据并行训练。

    基于改进的Ring All Reduce算法的面向深度学习的GPU并行方法

    公开(公告)号:CN113961337A

    公开(公告)日:2022-01-21

    申请号:CN202111073054.7

    申请日:2021-09-14

    摘要: 本发明公开了一种基于改进的RingAllReduce算法的面向深度学习的GPU并行方法,用于提升数据并行多设备间传输效率,缓解传统参数服务器并行结构带宽损耗问题;另外,利用传统深度学习主干网络包含权重参数较全连接层小,同步开销小而全连接层权重庞大梯度传输开销过高这一特点,将主干网络进行数据并行处理,全连接层采用模型并行处理,解决了数据并行模式难以支撑大规模网络参数及加速延缓的问题。相比其他方法,本方法最终测试与训练精度差异不大,但在加速效果上衰减幅度更小,效果更好,实验也发现,相比Cifar10等类别较少的数据集,该方法在miniImageNet上存在更大的加速优势,因此更适用于海量数据并行训练。