一种基于强化学习的水下航行器对接控制方法

    公开(公告)号:CN114721409B

    公开(公告)日:2022-09-20

    申请号:CN202210638552.X

    申请日:2022-06-08

    申请人: 山东大学

    IPC分类号: G05D1/06

    摘要: 本发明涉及一种基于强化学习的水下航行器对接控制方法,属于海洋控制实验技术领域,本发明基于深度强化学习中的PPO算法框架,引入新旧策略更新的可靠边界,提升智能体学习的稳定性。同时,采用自适应回滚裁剪机制,根据收集到成功完成任务经验的情况自适应地调节回滚力度,从而调节新旧策略更新的上下限,从而鼓励智能体在训练初期进行探索,在训练后期稳定收敛。在仿真训练方面,本发明构建了考虑海流、海浪干扰的对接训练环境,使用此训练环境进行智能体的学习,大大提升了水下航行器的抗干扰能力。

    基于深度强化学习的变质量水下航行器避障方法及系统

    公开(公告)号:CN113010963B

    公开(公告)日:2022-04-29

    申请号:CN202110240036.7

    申请日:2021-03-04

    申请人: 山东大学

    摘要: 本发明公开一种基于深度强化学习的变质量水下航行器避障方法及系统,包括:根据变质量水下航行器的运动状态和执行机构动作构建基于深度强化学习网络的避障仿真模型;将历史避障任务完整轨迹作为专家数据存入经验回放池,根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作,根据当前执行动作得到新运行状态和当前执行动作的奖励值,并存入经验回放池;根据经验回放池对避障仿真模型进行训练,根据当前训练的执行动作奖励值和历史训练的奖励平均值更新高斯噪声;以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器避障任务行驶路径。对基于深度强化学习的DDPG网络模型进行改进,解决水下航行器的避障问题。

    基于强化学习的水下航行器浮力离散变化下的控制方法

    公开(公告)号:CN114967713B

    公开(公告)日:2022-11-29

    申请号:CN202210897366.8

    申请日:2022-07-28

    申请人: 山东大学

    IPC分类号: G05D1/02

    摘要: 本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法,属于水下航行器控制领域,包括定义水下航行器浮力离散变化的上浮控制问题;建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型,将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标;构建策略‑评价网络:求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构,增加了一个当前评价网络和一个目标评价网络,使算法稳定性与收敛性更好,采用策略‑评价网络结构,将采集到的水下航行器状态信息作为系统输入,舵角指令为系统输出,实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。

    基于强化学习的水下航行器浮力离散变化下的控制方法

    公开(公告)号:CN114967713A

    公开(公告)日:2022-08-30

    申请号:CN202210897366.8

    申请日:2022-07-28

    申请人: 山东大学

    IPC分类号: G05D1/02

    摘要: 本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法,属于水下航行器控制领域,包括定义水下航行器浮力离散变化的上浮控制问题;建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型,将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标;构建策略‑评价网络:求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构,增加了一个当前评价网络和一个目标评价网络,使算法稳定性与收敛性更好,采用策略‑评价网络结构,将采集到的水下航行器状态信息作为系统输入,舵角指令为系统输出,实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。

    基于S面控制和TD3的AUV路径跟踪方法及系统

    公开(公告)号:CN113050420B

    公开(公告)日:2022-02-18

    申请号:CN202110239801.3

    申请日:2021-03-04

    申请人: 山东大学

    IPC分类号: G05B13/04

    摘要: 本发明公开一种基于S面控制和TD3的AUV路径跟踪方法及系统,包括:根据AUV运行状态和执行动作基于TD3算法构建AUV路径跟踪仿真模型;在控制时间步长内,通过S面控制和TD3算法控制得到AUV执行动作向量,以此获取每个控制时间步的AUV运行状态转移向量,并将其分别存入S面控制经验缓存空间库和交互控制经验缓存空间库;根据S面控制经验缓存空间库和交互控制经验缓存空间库对AUV路径跟踪仿真模型进行训练,以训练后的AUV路径跟踪仿真模型根据当前运行状态输出执行动作,以此控制AUV的路径跟踪。解决AUV路径跟踪方法中存在的抗干扰能力弱、自适应能力差、收敛效果差的问题。

    基于深度强化学习的变质量水下航行器避障方法及系统

    公开(公告)号:CN113010963A

    公开(公告)日:2021-06-22

    申请号:CN202110240036.7

    申请日:2021-03-04

    申请人: 山东大学

    摘要: 本发明公开一种基于深度强化学习的变质量水下航行器避障方法及系统,包括:根据变质量水下航行器的运动状态和执行机构动作构建基于深度强化学习网络的避障仿真模型;将历史避障任务完整轨迹作为专家数据存入经验回放池,根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作,根据当前执行动作得到新运行状态和当前执行动作的奖励值,并存入经验回放池;根据经验回放池对避障仿真模型进行训练,根据当前训练的执行动作奖励值和历史训练的奖励平均值更新高斯噪声;以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器避障任务行驶路径。对基于深度强化学习的DDPG网络模型进行改进,解决水下航行器的避障问题。