-
公开(公告)号:CN117371516A
公开(公告)日:2024-01-09
申请号:CN202311119840.5
申请日:2023-09-01
Applicant: 广州大学
IPC: G06N3/098 , G06N3/084 , G06N3/0455
Abstract: 本发明公开了一种基于网内计算的加速AI大模型分布式训练方法及装置,方法包括:本发明在“PS架构+数据并行”的模式下,参数服务器PS利用梯度路由机制发现梯度分组和模型分组的最优转发路径,并构建以PS为树根的模型聚合树;每个计算节点worker本地训练得到梯度并形成梯度分组,再多次采用基于随机线性网络编码的分时梯度聚合机制将梯度分组发到参数服务器PS;参数服务器PS将接收到的梯度转换为浮点数,进行模型更新,获得最新的全局模型参数;通过网内克隆操作将更新后的全局模型参数推送到所有计算节点worker;各个worker更新自己的模型参数;上述过程多次迭代后,完成分布式训练。本发明可在不损害模型精度且无需大量增加计算的前提下,显著减少通信量。
-
公开(公告)号:CN118075209A
公开(公告)日:2024-05-24
申请号:CN202410184150.6
申请日:2024-02-19
Applicant: 广州大学
IPC: H04L47/2441 , H04L41/16
Abstract: 本发明公开了一种基于可编程数据平面分布式集成学习的流量分类方法及装置,该方法包括:通过网络中多个不同位置的可编程交换机,从时间维度和空间维度追踪网络数据流,构建多个不同的数据集;对数据集的特征重要性进行排序,选出最优的特征;确定参与集成学习合作的可编程交换机及其相应的投票权重;训练机器学习模型,并确定机器学习模型关键参数的最优值;将训练好的模型映射到可编程交换机的匹配动作表,并部署到相应位置的参与集成学习合作的可编程交换机内,各个可编程交换机对网络流量进行实时推理,并通过投票最终确定网络流量分类。本发明通过网络中多个可编程交换机部署机器学习模型对网络流量时空联合观察,合作实现对网络流量的分类。
-
公开(公告)号:CN117834534A
公开(公告)日:2024-04-05
申请号:CN202311678224.3
申请日:2023-12-08
Applicant: 广州大学
IPC: H04L47/125 , H04L47/127 , H04L47/24 , H04L45/02 , H04L49/60
Abstract: 本发明公开了一种基于可编程数据平面的分布式在网神经网的流量控制方法及装置,方法包括:利用可编程交换机形成若干神经元,接着可编程交换机采取主动发送数据包的源路由方法确定神经元间通信链路,构建分布式在网神经网;然后按照需求对分布式在网神经网进行模型剪枝;分布式在网神经网的不同检测节点提取不同时隙的网络行为特征,利用提取的特征训练模型,获取神经元间的最优权重的集合;把发现的最优权重转换为流量控制的网络行为特征,利用权重概率转发策略完成近似最优的流量控制。本发明把分组转发过程与神经网模型的训练过程统一起来从而实现带内去中心化协作流量控制,同时,通过模型剪枝能够使得分布式在网神经网适应不同的网络拓扑。
-
-