一种基于强化学习的无人机网络发射功率分配方法及装置
摘要:
本发明公开了一种基于强化学习的无人机网络发射功率分配方法及装置,所述方法包括:初始化无人机以及用户的状态,定义动作空间以及神经网络的参数;初始化价值函数和当前网络状态的Q值;与环境交互接收奖励反馈并计算采取当前动作的Q值;根据反馈得到的奖励的最大值选取最优动作;更新系统的下一状态并存储至经验池中;判断经验数量是否达到预期值,若达到则开始进行深度强化学习,若未达到则继续循环;根据贝尔曼方程得到即时奖励并采取DPPO算法进行深度学习,以长期奖励函数最大化为目标进行强化学习;判断长期奖励函数的值是否趋于收敛,当趋于收敛时终止学习,此时已完成无人机无线自组网的资源分配最优化。
0/0