专利检索 ap:("山东大学") AND inv:"庄英豪" 第 1 页

1.

发明授权
一种基于强化学习的水下航行器对接控制方法有权

公开(公告)号：CN114721409B

公开(公告)日：2022-09-20

申请号：CN202210638552.X

申请日：2022-06-08

申请人： 山东大学

发明人： 李沂滨 , 张天泽 , 缪旭弘 , 魏征 , 尤岳 , 周广礼 , 贾磊 , 庄英豪 , 宋艳

IPC分类号： G05D1/06

摘要： 本发明涉及一种基于强化学习的水下航行器对接控制方法，属于海洋控制实验技术领域，本发明基于深度强化学习中的PPO算法框架，引入新旧策略更新的可靠边界，提升智能体学习的稳定性。同时，采用自适应回滚裁剪机制，根据收集到成功完成任务经验的情况自适应地调节回滚力度，从而调节新旧策略更新的上下限，从而鼓励智能体在训练初期进行探索，在训练后期稳定收敛。在仿真训练方面，本发明构建了考虑海流、海浪干扰的对接训练环境，使用此训练环境进行智能体的学习，大大提升了水下航行器的抗干扰能力。

2.

发明授权
基于深度强化学习的变质量水下航行器避障方法及系统有权

公开(公告)号：CN113010963B

公开(公告)日：2022-04-29

申请号：CN202110240036.7

申请日：2021-03-04

申请人： 山东大学

发明人： 李沂滨 , 李沐阳 , 缪旭弘 , 魏征 , 尤岳 , 周广礼 , 贾磊 , 庄英豪 , 宋艳

IPC分类号： G06F30/15 , G06F30/27 , G06N3/04 , G06N3/08

摘要： 本发明公开一种基于深度强化学习的变质量水下航行器避障方法及系统，包括：根据变质量水下航行器的运动状态和执行机构动作构建基于深度强化学习网络的避障仿真模型；将历史避障任务完整轨迹作为专家数据存入经验回放池，根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作，根据当前执行动作得到新运行状态和当前执行动作的奖励值，并存入经验回放池；根据经验回放池对避障仿真模型进行训练，根据当前训练的执行动作奖励值和历史训练的奖励平均值更新高斯噪声；以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器避障任务行驶路径。对基于深度强化学习的DDPG网络模型进行改进，解决水下航行器的避障问题。

3.

发明授权
一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法有权

公开(公告)号：CN113033119B

公开(公告)日：2022-03-25

申请号：CN202110262597.7

申请日：2021-03-11

申请人： 山东大学

发明人： 李沂滨 , 张天泽 , 缪旭弘 , 魏征 , 尤岳 , 周广礼 , 贾磊 , 庄英豪 , 宋艳

IPC分类号： G06F30/28 , G06N3/04 , G06N3/08 , B63G8/18 , B63G8/14

摘要： 本发明涉及一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法，属于海洋控制实验技术领域，基于深度强化学习中的DDPG算法框架，在水下航行器智能体训练过程中既使用先前得到的专家数据，又使用智能体与任务环境交互得到的交互数据，两者混合采集，大大提升了算法收敛速度。同时，本发明利用两组彼此独立的评论家网络，通过取两者分别输出Q(s,a)的最小值得到演员网络的损失函数，有效降低了强化学习算法中存在的过偏估计。

4.

发明授权
一种基于示范数据强化学习技术的水下航行器自主上浮控制方法有权

公开(公告)号：CN113033118B

公开(公告)日：2022-03-25

申请号：CN202110260783.7

申请日：2021-03-10

申请人： 山东大学

发明人： 李沂滨 , 张天泽 , 缪旭弘 , 魏征 , 尤岳 , 周广礼 , 贾磊 , 庄英豪 , 宋艳

IPC分类号： G06F30/28 , G06N3/04 , G06N3/08 , B63G8/18 , B63G8/14

摘要： 本发明涉及一种基于示范数据强化学习技术的水下航行器自主上浮控制方法，属于海洋设备控制技术领域，本发明基于深度强化学习中“演员‑评论家”算法框架，提出一种基于结合示范数据深度强化学习技术的水下航行器自主上浮控制方法。本发明基于DDPG算法，实现对连续动作空间水下航行器的上浮控制，并且在训练过程中使用示范数据，加速算法的收敛，同时对算法框架中的演员网络进行延迟更新，有效消除强化学习算法中存在的过估计问题。

5.

发明授权
基于强化学习的水下航行器浮力离散变化下的控制方法有权

公开(公告)号：CN114967713B

公开(公告)日：2022-11-29

申请号：CN202210897366.8

申请日：2022-07-28

申请人： 山东大学

发明人： 李沂滨 , 张悦 , 庄英豪 , 张天泽 , 缪旭弘 , 魏征

IPC分类号： G05D1/02

摘要： 本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法，属于水下航行器控制领域，包括定义水下航行器浮力离散变化的上浮控制问题；建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型，将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标；构建策略‑评价网络：求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构，增加了一个当前评价网络和一个目标评价网络，使算法稳定性与收敛性更好，采用策略‑评价网络结构，将采集到的水下航行器状态信息作为系统输入，舵角指令为系统输出，实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。

6.

发明公开
基于强化学习的水下航行器浮力离散变化下的控制方法有权

公开(公告)号：CN114967713A

公开(公告)日：2022-08-30

申请号：CN202210897366.8

申请日：2022-07-28

申请人： 山东大学

发明人： 李沂滨 , 张悦 , 庄英豪 , 张天泽 , 缪旭弘 , 魏征

IPC分类号： G05D1/02

摘要： 本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法，属于水下航行器控制领域，包括定义水下航行器浮力离散变化的上浮控制问题；建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型，将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标；构建策略‑评价网络：求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构，增加了一个当前评价网络和一个目标评价网络，使算法稳定性与收敛性更好，采用策略‑评价网络结构，将采集到的水下航行器状态信息作为系统输入，舵角指令为系统输出，实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。

7.

发明公开
一种基于示范数据强化学习技术的水下航行器自主上浮控制方法有权

公开(公告)号：CN113033118A

公开(公告)日：2021-06-25

申请号：CN202110260783.7

申请日：2021-03-10

申请人： 山东大学

发明人： 李沂滨 , 张天泽 , 缪旭弘 , 魏征 , 尤岳 , 周广礼 , 贾磊 , 庄英豪 , 宋艳

IPC分类号： G06F30/28 , G06N3/04 , G06N3/08 , B63G8/18 , B63G8/14

摘要： 本发明涉及一种基于示范数据强化学习技术的水下航行器自主上浮控制方法，属于海洋设备控制技术领域，本发明基于深度强化学习中“演员‑评论家”算法框架，提出一种基于结合示范数据深度强化学习技术的水下航行器自主上浮控制方法。本发明基于DDPG算法，实现对连续动作空间水下航行器的上浮控制，并且在训练过程中使用示范数据，加速算法的收敛，同时对算法框架中的演员网络进行延迟更新，有效消除强化学习算法中存在的过估计问题。

8.

发明授权
基于S面控制和TD3的AUV路径跟踪方法及系统有权

公开(公告)号：CN113050420B

公开(公告)日：2022-02-18

申请号：CN202110239801.3

申请日：2021-03-04

申请人： 山东大学

发明人： 李沂滨 , 李茹 , 缪旭弘 , 魏征 , 尤岳 , 周广礼 , 贾磊 , 庄英豪 , 宋艳

IPC分类号： G05B13/04

摘要： 本发明公开一种基于S面控制和TD3的AUV路径跟踪方法及系统，包括：根据AUV运行状态和执行动作基于TD3算法构建AUV路径跟踪仿真模型；在控制时间步长内，通过S面控制和TD3算法控制得到AUV执行动作向量，以此获取每个控制时间步的AUV运行状态转移向量，并将其分别存入S面控制经验缓存空间库和交互控制经验缓存空间库；根据S面控制经验缓存空间库和交互控制经验缓存空间库对AUV路径跟踪仿真模型进行训练，以训练后的AUV路径跟踪仿真模型根据当前运行状态输出执行动作，以此控制AUV的路径跟踪。解决AUV路径跟踪方法中存在的抗干扰能力弱、自适应能力差、收敛效果差的问题。

9.

发明公开
一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法有权

公开(公告)号：CN113033119A

公开(公告)日：2021-06-25

申请号：CN202110262597.7

申请日：2021-03-11

申请人： 山东大学

发明人： 李沂滨 , 张天泽 , 缪旭弘 , 魏征 , 尤岳 , 周广礼 , 贾磊 , 庄英豪 , 宋艳

IPC分类号： G06F30/28 , G06N3/04 , G06N3/08 , B63G8/18 , B63G8/14

摘要： 本发明涉及一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法，属于海洋控制实验技术领域，基于深度强化学习中的DDPG算法框架，在水下航行器智能体训练过程中既使用先前得到的专家数据，又使用智能体与任务环境交互得到的交互数据，两者混合采集，大大提升了算法收敛速度。同时，本发明利用两组彼此独立的评论家网络，通过取两者分别输出Q(s,a)的最小值得到演员网络的损失函数，有效降低了强化学习算法中存在的过偏估计。

10.

发明公开
基于深度强化学习的变质量水下航行器避障方法及系统有权

公开(公告)号：CN113010963A

公开(公告)日：2021-06-22

申请号：CN202110240036.7

申请日：2021-03-04

申请人： 山东大学

发明人： 李沂滨 , 李沐阳 , 缪旭弘 , 魏征 , 尤岳 , 周广礼 , 贾磊 , 庄英豪 , 宋艳

IPC分类号： G06F30/15 , G06F30/27 , G06N3/04 , G06N3/08

摘要： 本发明公开一种基于深度强化学习的变质量水下航行器避障方法及系统，包括：根据变质量水下航行器的运动状态和执行机构动作构建基于深度强化学习网络的避障仿真模型；将历史避障任务完整轨迹作为专家数据存入经验回放池，根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作，根据当前执行动作得到新运行状态和当前执行动作的奖励值，并存入经验回放池；根据经验回放池对避障仿真模型进行训练，根据当前训练的执行动作奖励值和历史训练的奖励平均值更新高斯噪声；以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器避障任务行驶路径。对基于深度强化学习的DDPG网络模型进行改进，解决水下航行器的避障问题。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类