-
公开(公告)号:CN114721409B
公开(公告)日:2022-09-20
申请号:CN202210638552.X
申请日:2022-06-08
申请人: 山东大学
IPC分类号: G05D1/06
摘要: 本发明涉及一种基于强化学习的水下航行器对接控制方法,属于海洋控制实验技术领域,本发明基于深度强化学习中的PPO算法框架,引入新旧策略更新的可靠边界,提升智能体学习的稳定性。同时,采用自适应回滚裁剪机制,根据收集到成功完成任务经验的情况自适应地调节回滚力度,从而调节新旧策略更新的上下限,从而鼓励智能体在训练初期进行探索,在训练后期稳定收敛。在仿真训练方面,本发明构建了考虑海流、海浪干扰的对接训练环境,使用此训练环境进行智能体的学习,大大提升了水下航行器的抗干扰能力。
-
公开(公告)号:CN113010963B
公开(公告)日:2022-04-29
申请号:CN202110240036.7
申请日:2021-03-04
申请人: 山东大学
摘要: 本发明公开一种基于深度强化学习的变质量水下航行器避障方法及系统,包括:根据变质量水下航行器的运动状态和执行机构动作构建基于深度强化学习网络的避障仿真模型;将历史避障任务完整轨迹作为专家数据存入经验回放池,根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作,根据当前执行动作得到新运行状态和当前执行动作的奖励值,并存入经验回放池;根据经验回放池对避障仿真模型进行训练,根据当前训练的执行动作奖励值和历史训练的奖励平均值更新高斯噪声;以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器避障任务行驶路径。对基于深度强化学习的DDPG网络模型进行改进,解决水下航行器的避障问题。
-
公开(公告)号:CN113033119B
公开(公告)日:2022-03-25
申请号:CN202110262597.7
申请日:2021-03-11
申请人: 山东大学
摘要: 本发明涉及一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法,属于海洋控制实验技术领域,基于深度强化学习中的DDPG算法框架,在水下航行器智能体训练过程中既使用先前得到的专家数据,又使用智能体与任务环境交互得到的交互数据,两者混合采集,大大提升了算法收敛速度。同时,本发明利用两组彼此独立的评论家网络,通过取两者分别输出Q(s,a)的最小值得到演员网络的损失函数,有效降低了强化学习算法中存在的过偏估计。
-
公开(公告)号:CN113033118B
公开(公告)日:2022-03-25
申请号:CN202110260783.7
申请日:2021-03-10
申请人: 山东大学
摘要: 本发明涉及一种基于示范数据强化学习技术的水下航行器自主上浮控制方法,属于海洋设备控制技术领域,本发明基于深度强化学习中“演员‑评论家”算法框架,提出一种基于结合示范数据深度强化学习技术的水下航行器自主上浮控制方法。本发明基于DDPG算法,实现对连续动作空间水下航行器的上浮控制,并且在训练过程中使用示范数据,加速算法的收敛,同时对算法框架中的演员网络进行延迟更新,有效消除强化学习算法中存在的过估计问题。
-
公开(公告)号:CN114967713B
公开(公告)日:2022-11-29
申请号:CN202210897366.8
申请日:2022-07-28
申请人: 山东大学
IPC分类号: G05D1/02
摘要: 本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法,属于水下航行器控制领域,包括定义水下航行器浮力离散变化的上浮控制问题;建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型,将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标;构建策略‑评价网络:求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构,增加了一个当前评价网络和一个目标评价网络,使算法稳定性与收敛性更好,采用策略‑评价网络结构,将采集到的水下航行器状态信息作为系统输入,舵角指令为系统输出,实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。
-
公开(公告)号:CN114967713A
公开(公告)日:2022-08-30
申请号:CN202210897366.8
申请日:2022-07-28
申请人: 山东大学
IPC分类号: G05D1/02
摘要: 本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法,属于水下航行器控制领域,包括定义水下航行器浮力离散变化的上浮控制问题;建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型,将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标;构建策略‑评价网络:求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构,增加了一个当前评价网络和一个目标评价网络,使算法稳定性与收敛性更好,采用策略‑评价网络结构,将采集到的水下航行器状态信息作为系统输入,舵角指令为系统输出,实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。
-
公开(公告)号:CN113033118A
公开(公告)日:2021-06-25
申请号:CN202110260783.7
申请日:2021-03-10
申请人: 山东大学
摘要: 本发明涉及一种基于示范数据强化学习技术的水下航行器自主上浮控制方法,属于海洋设备控制技术领域,本发明基于深度强化学习中“演员‑评论家”算法框架,提出一种基于结合示范数据深度强化学习技术的水下航行器自主上浮控制方法。本发明基于DDPG算法,实现对连续动作空间水下航行器的上浮控制,并且在训练过程中使用示范数据,加速算法的收敛,同时对算法框架中的演员网络进行延迟更新,有效消除强化学习算法中存在的过估计问题。
-
公开(公告)号:CN113050420B
公开(公告)日:2022-02-18
申请号:CN202110239801.3
申请日:2021-03-04
申请人: 山东大学
IPC分类号: G05B13/04
摘要: 本发明公开一种基于S面控制和TD3的AUV路径跟踪方法及系统,包括:根据AUV运行状态和执行动作基于TD3算法构建AUV路径跟踪仿真模型;在控制时间步长内,通过S面控制和TD3算法控制得到AUV执行动作向量,以此获取每个控制时间步的AUV运行状态转移向量,并将其分别存入S面控制经验缓存空间库和交互控制经验缓存空间库;根据S面控制经验缓存空间库和交互控制经验缓存空间库对AUV路径跟踪仿真模型进行训练,以训练后的AUV路径跟踪仿真模型根据当前运行状态输出执行动作,以此控制AUV的路径跟踪。解决AUV路径跟踪方法中存在的抗干扰能力弱、自适应能力差、收敛效果差的问题。
-
公开(公告)号:CN113033119A
公开(公告)日:2021-06-25
申请号:CN202110262597.7
申请日:2021-03-11
申请人: 山东大学
摘要: 本发明涉及一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法,属于海洋控制实验技术领域,基于深度强化学习中的DDPG算法框架,在水下航行器智能体训练过程中既使用先前得到的专家数据,又使用智能体与任务环境交互得到的交互数据,两者混合采集,大大提升了算法收敛速度。同时,本发明利用两组彼此独立的评论家网络,通过取两者分别输出Q(s,a)的最小值得到演员网络的损失函数,有效降低了强化学习算法中存在的过偏估计。
-
公开(公告)号:CN113010963A
公开(公告)日:2021-06-22
申请号:CN202110240036.7
申请日:2021-03-04
申请人: 山东大学
摘要: 本发明公开一种基于深度强化学习的变质量水下航行器避障方法及系统,包括:根据变质量水下航行器的运动状态和执行机构动作构建基于深度强化学习网络的避障仿真模型;将历史避障任务完整轨迹作为专家数据存入经验回放池,根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作,根据当前执行动作得到新运行状态和当前执行动作的奖励值,并存入经验回放池;根据经验回放池对避障仿真模型进行训练,根据当前训练的执行动作奖励值和历史训练的奖励平均值更新高斯噪声;以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器避障任务行驶路径。对基于深度强化学习的DDPG网络模型进行改进,解决水下航行器的避障问题。
-
-
-
-
-
-
-
-
-