摘要:
本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法,属于水下航行器控制领域,包括定义水下航行器浮力离散变化的上浮控制问题;建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型,将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标;构建策略‑评价网络:求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构,增加了一个当前评价网络和一个目标评价网络,使算法稳定性与收敛性更好,采用策略‑评价网络结构,将采集到的水下航行器状态信息作为系统输入,舵角指令为系统输出,实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。
公开/授权文献
- CN114967713A 基于强化学习的水下航行器浮力离散变化下的控制方法 公开/授权日:2022-08-30