一种基于强化学习的智能体无效行为切换抑制方法

发明公开

CN114021456A 一种基于强化学习的智能体无效行为切换抑制方法审中-实审

请登陆查看更多内容

专利标题： 一种基于强化学习的智能体无效行为切换抑制方法
申请号： CN202111303805.X

申请日： 2021-11-05
公开(公告)号： CN114021456A

公开(公告)日： 2022-02-08
发明人: 郝一行 , 朴海音 , 陈永红 , 陶晓洋 , 王汉 , 于津 , 韩玥 , 杨晟琦 , 彭宣淇 , 孙阳 , 叶超 , 樊松源
申请人： 沈阳飞机设计研究所扬州协同创新研究院有限公司
申请人地址： 江苏省扬州市广陵新城江苏信息服务产业基地内28号楼B栋
专利权人： 沈阳飞机设计研究所扬州协同创新研究院有限公司
当前专利权人： 沈阳飞机设计研究所扬州协同创新研究院有限公司
当前专利权人地址： 江苏省扬州市广陵新城江苏信息服务产业基地内28号楼B栋
代理机构： 大连理工大学专利中心
代理商 梅洪玉
主分类号： G06F30/27
IPC分类号： G06F30/27 ; G06N3/00 ; G06N3/04 ; G06N3/08 ; G06N20/00

摘要：

本发明公开一种基于强化学习的智能体无效行为切换抑制方法，属于航空工程、强化学习领域。通过智能体与仿真环境交互进行数据采样，并基于深度强化学习进行模型训练；将本算法加入模型训练过程，抑制智能体在执行时无效动作切换的产生，平滑强化学习智能体的动作执行机制。本发明能够达到较为明显的智能体无效动作切换抑制效果。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F30/00	计算机辅助设计（CAD）
G06F30/20	.设计优化、验证或模拟（电路设计的优化、验证或模拟入G06F30/30）
G06F30/27	..使用机器学习，例如人工智能，神经网络，支持向量机[SVM]或训练模型