-
公开(公告)号:CN117851028A
公开(公告)日:2024-04-09
申请号:CN202311587160.6
申请日:2023-11-24
Applicant: 北京邮电大学
Abstract: 本公开提供一种分布式模型训练方法及相关设备,所述方法包括:获取算力网络中计算节点之间链路的剩余带宽;基于训练数据的数据量计算所述算力网络中计算节点所形成的候选环路需要使用的计算资源数量;基于所述剩余带宽和所述候选环路需要使用的计算资源数量从所述候选环路中确定目标环路;基于所述目标环路进行分布式模型训练。
-
公开(公告)号:CN116455470A
公开(公告)日:2023-07-18
申请号:CN202310036204.X
申请日:2023-01-06
Applicant: 北京邮电大学 , 国网宁夏电力有限公司信息通信公司 , 国网宁夏电力有限公司
IPC: H04B10/275 , H04Q11/02 , H04Q11/00 , H04L41/14
Abstract: 一种边缘计算光网络中分布式模型训练方法及装置,该方法根据是否满足环路可靠性要求、节点数量要求,及是否包含源节点进行候选环路选择;从环路中选择节点包含源节点,计算每次迭代的计算时间、传输时间,及根据模型精度得到迭代次数,从而得到总的训练时长;判断环上资源是否满足计算资源和频谱资源需求,计算资源需求判断方式为:可用数量、时间槽充足,且在不同节点上包含相同的空闲时段;频谱资源需求判断方式为:空闲的频谱槽序号相同,且与计算资源有相同的空闲时段;若环上资源同时满足计算资源和频谱资源需求,为任务分配资源,任务部署成功。本发明有效避免节点和链路故障影响,减少批量任务的阻塞率,获得可靠的分布式模型训练服务。
-