一种基于dijkstra辅助的两跳学习深度强化学习路由策略方法
摘要:
本发明公开了一种基于dijkstra辅助的两跳学习深度强化学习路由策略方法,解决了传统路由算法无法根据当前的网络状态进行在线决策的问题,该多智能体强化学习路由算法将每颗卫星视作一个智能体,它通过与环境的不断交互学习最优的路由策略,当卫星网络环境发生改变时,卫星会及时调整路由策略。主要有以下三个优点:1、该方案为在线决策路由算法,可以根据网络环境自主的更新路由策略。2、该方案为分布式路由算法,不会加重卫星负载,节省了星上资源。3、该路由算法的收敛速度快,节省了训练资源。4、本算法采用两跳学习法,扩大智能体的感知域,更快的感知到卫星网络环境的变化,转发策略更优。
0/0