一种基于强化学习的网络流量负载均衡控制方法
摘要:
本发明公开了一种基于强化学习的网络流量负载均衡控制方法,包括以下步骤:1)数据包处在路由器节点R*时,根据当前数据包的状态量s和策略π从下一跳的动作集合选择回报值最大的动作ai;2)当前数据包被路由以后,根据该数据包的实际情况修改该数据包的状态量s;并更新当前数据包的下一跳的动作集合;3)根据当前网络流量均衡状态修改当前数据包的奖惩值r;4)根据奖惩值更新策略π;重复步骤1)到步骤4),直到当前数据包达到最终目的地址。该方法通过智能体与网络环境不断的交互学习,实现网络流量负载均衡的最优或近似最优控制。
0/0