基于强化学习的水下航行器浮力离散变化下的控制方法

发明授权

CN114967713B 基于强化学习的水下航行器浮力离散变化下的控制方法有权

请登陆查看更多内容

专利标题： 基于强化学习的水下航行器浮力离散变化下的控制方法
申请号： CN202210897366.8

申请日： 2022-07-28
公开(公告)号： CN114967713B

公开(公告)日： 2022-11-29
发明人: 李沂滨 , 张悦 , 庄英豪 , 张天泽 , 缪旭弘 , 魏征
申请人： 山东大学
申请人地址： 山东省济南市历城区山大南路27号
专利权人： 山东大学
当前专利权人： 山东大学
当前专利权人地址： 山东省济南市历城区山大南路27号
代理机构： 济南金迪知识产权代理有限公司
代理商 孙倩文
主分类号： G05D1/02
IPC分类号： G05D1/02

摘要：

本发明涉及一种基于强化学习的水下航行器浮力离散变化下的控制方法，属于水下航行器控制领域，包括定义水下航行器浮力离散变化的上浮控制问题；建立水下航行器浮力离散变化条件下的上浮控制问题的马尔科夫决策模型，将上浮控制目标转换为深度强化学习框架下的水下航行器浮力离散变化条件下的上浮控制目标；构建策略‑评价网络：求解水下航行器的目标策略。本发明在TD3算法的基础上改进了网络结构，增加了一个当前评价网络和一个目标评价网络，使算法稳定性与收敛性更好，采用策略‑评价网络结构，将采集到的水下航行器状态信息作为系统输入，舵角指令为系统输出，实现水下航行器浮力离散变化条件下上浮控制的自主性与可控性。

公开/授权文献

CN114967713A 基于强化学习的水下航行器浮力离散变化下的控制方法公开/授权日：2022-08-30

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G05	控制；调节
G05D	非电变量的控制或调节系统（金属的连续铸造入B22D11/16；阀门本身入F16K；非电变量的检测见G01各有关小类；电或磁变量的调节入G05F）
G05D1/00	陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪（无线电导航系统或使用其他波的类似系统入G01S）
G05D1/02	.二维的位置或航道控制