-
公开(公告)号:CN111858072B
公开(公告)日:2024-02-09
申请号:CN202010784598.3
申请日:2020-08-06
申请人: 华中科技大学
IPC分类号: G06F9/50 , G06N3/084 , G06N3/098 , G06N3/0495
摘要: 本发明公开了一种大规模分布式深度学习的资源管理方法及系统,在神经网络的训练运行时,实现针对参数及梯度等中间数据的内存资源优化管理,同时保障分布式通信带宽资源的合理配置。重新实现跨层内存复用,将迭代计算及稀疏通信所需的中间数据迁入CPU主存,并在随后按需迁回,减轻层间内存消耗;并在CPU‑GPU数据合理迁移的基础上,实现层内内存复用,挖掘层内计算和内存访问操作的独立性,尽可能的减轻层内内存消耗。在保证内存资源高效利用的同时,实现分布式参数通信优化。对分布式参数更新阶段的数据访问进行合理重定向,将CPU主存作为镜像访问区域,完成对参数及梯度的数据访问,解决了梯度数据缺失及参数写入越界的问题。
-
公开(公告)号:CN111858072A
公开(公告)日:2020-10-30
申请号:CN202010784598.3
申请日:2020-08-06
申请人: 华中科技大学
摘要: 本发明公开了一种大规模分布式深度学习的资源管理方法及系统,在神经网络的训练运行时,实现针对参数及梯度等中间数据的内存资源优化管理,同时保障分布式通信带宽资源的合理配置。重新实现跨层内存复用,将迭代计算及稀疏通信所需的中间数据迁入CPU主存,并在随后按需迁回,减轻层间内存消耗;并在CPU-GPU数据合理迁移的基础上,实现层内内存复用,挖掘层内计算和内存访问操作的独立性,尽可能的减轻层内内存消耗。在保证内存资源高效利用的同时,实现分布式参数通信优化。对分布式参数更新阶段的数据访问进行合理重定向,将CPU主存作为镜像访问区域,完成对参数及梯度的数据访问,解决了梯度数据缺失及参数写入越界的问题。
-
公开(公告)号:CN118036680A
公开(公告)日:2024-05-14
申请号:CN202410157741.4
申请日:2024-02-04
申请人: 华中科技大学
摘要: 本发明公开了部署于RRAM的深度学习模型的重训练及权重写入校验方法,属于基于忆阻器的神经网络架构容错优化领域。本发明通过在模型重训练中提取关键参数权重,根据关键参数对应的时序性动态掩码,对交叉阵列中的阻值漂移型的故障单元进行精确写操作,有效减少系统减错阶段的写入‑校验次数,降低减错写入的能耗;同时有效减少云边参数通信规模,提升系统性能。所构建的云‑边协同容错框架可以显著提升边缘设备计算系统可靠性,同时扩展到推理阶段对精度产生影响的阻值漂移型故障进行容错推理。
-
-