-
公开(公告)号:CN117221126B
公开(公告)日:2024-02-13
申请号:CN202311487370.8
申请日:2023-11-09
Applicant: 之江实验室
IPC: H04L41/0896 , H04L41/0894 , H04L45/036 , H04L45/247 , H04L45/76
Abstract: 本发明公开了一种面向网络协同流量的路由调度方法与系统,首先将Coflow子流的路由调度问题建模成整数规划问题,通过近似算法求解得到各个子流的路由及带宽分配,然后考虑Coflow并发情况下的剩余可用带宽情况,对Coflow带宽分配策略进行更新。本方法是一个在线的Coflow路由调度方法,可以在不需要任何Coflow先验知识的情况下,实现Coflow的即时路由和带宽分配。相比于传统的Coflow调度工作,本发明从数据中心网络的实际出发,结合Coflow的路由和带宽分配设计高效合理的调度策略,本发明产生的调度策略更准确实用,且可用于线上实时场景,实现数据中心网络中协同流量的高效
-
公开(公告)号:CN115951989B
公开(公告)日:2023-06-20
申请号:CN202310247633.1
申请日:2023-03-15
Applicant: 之江实验室
IPC: G06F9/48 , H04L47/2425 , H04L49/111 , G06F9/50
Abstract: 本发明公开了一种基于严格优先级的协同流量调度数值模拟方法与系统,包括以下步骤:采集分布式计算任务的实时执行状态数据、计算阶段用时估测值;基于严格优先级模拟并存储软件可定义交换机出端口中的流量传输队列;配置无前置依赖任务列表,模拟分布式计算环境中各个计算节点当前在执行的计算任务处理过程,存储待执行的计算任务信息和/或正在执行的计算任务信息;基于分布式计算任务的实时执行状态数据和计算阶段用时估测值,查找符合无前置计算约束条件的计算任务和传输任务;将无前置计算约束条件的计算任务和传输任务分别添加到无前置依赖任务列表和基于严格优先级的传输任务队列中。
-
公开(公告)号:CN115996197A
公开(公告)日:2023-04-21
申请号:CN202310259202.7
申请日:2023-03-17
Applicant: 之江实验室
IPC: H04L47/2425 , H04L47/12 , H04L41/14
Abstract: 本发明公开了一种流量拥塞前置的分布式计算流量仿真系统与方法,包括:发收包终端组件,接收并处理仿真系统参数,得到分布式计算任务的依赖关系矩阵以及计算阶段耗时向量,选择监听端口;协同流量传输任务线程构建组件,用于在分布式计算任务开始时和任一协同流量传输结束时,构建一计算模拟线程,在线程被唤醒后获取流量传输策略以创建协同流量传输任务线程;协同流量任务管理器,通过协同流量传输任务线程池完成协同流量任务的管理;环境监听组件,用于监听端口并接收各种报文;数据面可编程交换机组件,基于报警阈值和任务优先级进行拥塞预警并配置网络资源。本发明在降低丢包率的同时还将网络资源优先分配给较高优先级的任务和流量。
-
公开(公告)号:CN117319287A
公开(公告)日:2023-12-29
申请号:CN202311585505.4
申请日:2023-11-27
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多智能体强化学习的网络可扩展路由方法与系统,通过PageRank算法对网络节点重要性进行建模,并选取网络中的关键节点,然后在若干个关键网络节点上训练Actor网络,在SDN控制器上训练Critic网络,基于多智能体强化学习进行网络流量的逐跳路由,实现大型数据中心网络的可扩展路由。通过本发明既提升了路由方案的稳定性又降低了大型网络中路由寻优的复杂度;同时不需要传统监督学习方法中的带标签的样本,通过与环境反复交互获得实时反馈的样本,以指导模型的迭代和优化;奖励函数的设计综合考虑了网络链路的吞吐量、时延和丢包率,通过多种指标加权指导多智能体生成最优的流量路由策略。
-
公开(公告)号:CN117319283A
公开(公告)日:2023-12-29
申请号:CN202311047597.0
申请日:2023-08-17
Applicant: 之江实验室
Abstract: 本发明提供了一种融合地理分布式机器学习多维特征的梯度传输方法,包括:由全局调度器收集分散在不同地理位置的多维特征,生成计算调度任务,并将计算结果转化为调度策略分发至网络节点和计算节点;由网络节点接收全局调度器发送的调度策略,根据调度策略更新路由转发表,并由计算节点接收全局调度器发送的端到端调度策略,并根据策略执行传输调度。本发明在链路带宽资源动态变化和拓扑结构非对称的广域网场景下,如何利用不同参数更新对模型收敛重要度的差异性以及模型训练对不完整参数更新的容忍性,并基于此建立传输模型和数学模型将这些特征应用于数据的传输优化设计中实现自适应的传输服务,降低梯度数据的传输完成时间。
-
公开(公告)号:CN117177377A
公开(公告)日:2023-12-05
申请号:CN202311208042.X
申请日:2023-09-19
Applicant: 之江实验室
IPC: H04W72/543 , G06N20/20
Abstract: 本发明公开了一种面向分布式训练的协作式梯度网内聚合调度方法和装置。其中,该方法,包括:根据收集到的网络资源信息和预定义的模型分区确定各worker节点上子模型对应的目标聚合节点;根据各worker节点上子模型对应的目标聚合节点,将各worker节点上划分得到的子模型训练后的梯度分片进标记;当梯度分片到达聚合节点时,将聚合节点的标识与梯度分片的标记进行比对,若不匹配则进行转发;若匹配,则将梯度分片分配到当前聚合节点特定的内存单元进行聚合;PS节点进行全局聚合,并将全局聚合后更新的参数发送至所有worker节点。本发明的技术方案,通过协作网内聚合执行梯度调度,实现了在可编程交换机上聚合异步到达的梯度并加速分布式训练。
-
公开(公告)号:CN115951989A
公开(公告)日:2023-04-11
申请号:CN202310247633.1
申请日:2023-03-15
Applicant: 之江实验室
IPC: G06F9/48 , H04L47/2425 , H04L49/111 , G06F9/50
Abstract: 本发明公开了一种基于严格优先级的协同流量调度数值模拟方法与系统,包括以下步骤:采集分布式计算任务的实时执行状态数据、计算阶段用时估测值;基于严格优先级模拟并存储软件可定义交换机出端口中的流量传输队列;配置无前置依赖任务列表,模拟分布式计算环境中各个计算节点当前在执行的计算任务处理过程,存储待执行的计算任务信息和/或正在执行的计算任务信息;基于分布式计算任务的实时执行状态数据和计算阶段用时估测值,查找符合无前置计算约束条件的计算任务和传输任务;将无前置计算约束条件的计算任务和传输任务分别添加到无前置依赖任务列表和基于严格优先级的传输任务队列中。
-
公开(公告)号:CN119766736A
公开(公告)日:2025-04-04
申请号:CN202510273511.9
申请日:2025-03-10
Applicant: 之江实验室
IPC: H04L47/125 , H04L47/127 , H04L47/783 , H04L47/70 , H04L47/83 , H04L47/52 , H04L47/625 , G06N3/045 , G06N3/0499 , G06N3/092
Abstract: 本申请公开了一种网络拥塞控制方法、系统、装置及介质,该方法包括:将用于表征网络集群当前网络运行状态的状态向量和用于指导带宽资源分配的历史动作向量,输入基于语义理解与强化学习的目标模型,以获取目标动作向量。将目标动作向量发送给网络集群中各个端侧网卡,以控制端侧网卡根据目标动作向量对应的带宽分配策略进行数据传输。由此,根据不同的网络状态和历史动作决策,动态调整流量调度策略,提升资源利用率。此外,通过语义理解模型提取状态向量和历史动作向量中的语义信息,并利用提取的信息指导强化学习模型的智能决策过程,即,通过目标模型生成的目标动作向量指导带宽资源分配,实现主动预测和规避网络拥塞风险。
-
公开(公告)号:CN117221126A
公开(公告)日:2023-12-12
申请号:CN202311487370.8
申请日:2023-11-09
Applicant: 之江实验室
IPC: H04L41/0896 , H04L41/0894 , H04L45/036 , H04L45/247 , H04L45/76
Abstract: 本发明公开了一种面向网络协同流量的路由调度方法与系统,首先将Coflow子流的路由调度问题建模成整数规划问题,通过近似算法求解得到各个子流的路由及带宽分配,然后考虑Coflow并发情况下的剩余可用带宽情况,对Coflow带宽分配策略进行更新。本方法是一个在线的Coflow路由调度方法,可以在不需要任何Coflow先验知识的情况下,实现Coflow的即时路由和带宽分配。相比于传统的Coflow调度工作,本发明从数据中心网络的实际出发,结合Coflow的路由和带宽分配设计高效合理的调度策略,本发明产生的调度策略更准确实用,且可用于线上实时场景,实现数据中心网络中协同流量的高效调度。
-
公开(公告)号:CN116915619A
公开(公告)日:2023-10-20
申请号:CN202310571205.4
申请日:2023-05-17
Applicant: 之江实验室
Abstract: 本发明公开了一种面向地理分布式机器学习的通信拓扑设计方法,采用与若干工作节点进行信息交互的控制节点执行,包括S1、接收工作节点上传的其周期性探测的节点之间的网络信息,并根据收到的网络信息对有向图进行创建或更新;S2、根据有向图,采用模拟退火算法选择具有最大带宽容量的节点作为初始状态,并初始化初始温度,迭代搜索获得具有最小聚合完成时间的通信拓扑;S3、根据迭代获取的通信拓扑的当前状态集合和邻居状态集合,缓存拓扑更新信息;当接收到所有工作节点的请求时,向工作节点发送拓扑更新信息。
-
-
-
-
-
-
-
-
-