Patent search ap:("哈尔滨工程大学") AND inv:"徐军政" Page 1

1.

发明公开
一种基于DRMRPG算法的多无人艇博弈对抗方法及系统审中-公开

公开(公告)号：CN120047006A

公开(公告)日：2025-05-27

申请号：CN202510215765.5

申请日：2025-02-26

Applicant: 哈尔滨工程大学

Inventor： 王兴梅 , 李昊天 , 徐军政 , 徐悦竹 , 杨东梅

IPC: G06Q10/0637 , G06Q50/26 , G06N3/092 , G06N3/045 , G06N3/084

Abstract: 本发明公开了一种基于DRMRPG算法的多无人艇博弈对抗方法及系统，方法包括：构建基于所述DRMRPG算法的多无人艇智能博弈框架；在MADDPG算法的基础上，引入多级经验回放策略、动态软更新策略和残差连接策略，得到所述DRMRPG算法；基于所述DRMRPG算法，构建初始多无人艇博弈决策模型；利用所述多无人艇智能博弈框架对所述初始多无人艇博弈决策模型进行训练，得到智能决策模型；利用所述智能决策模型进行多无人艇博弈对抗，得到博弈决策。本发明具备高奖励值、高稳定性和高效率，具有一定的有效性。

2.

发明公开
一种基于深度强化学习的空战多意图策略自主生成方法审中-实审

公开(公告)号：CN116432030A

公开(公告)日：2023-07-14

申请号：CN202310378455.6

申请日：2023-04-10

Applicant: 哈尔滨工程大学

Inventor： 贾璐毓 , 徐军政 , 丁拯坤 , 刘佳奇 , 蔡成涛 , 王兴梅

IPC: G06F18/214 , G06N3/0442 , G06N3/0499 , G06N3/08

Abstract: 本发明为了生成更好的空战多意图策略，提出一种基于深度强化学习的空战多意图策略自主生成方法。包括如下步骤：(1)针对空战意图构建基于深度强化学习的空战博弈框架；(2)提出时序近端策略优化(Temporal Proximal Policy Optimization,T‑PPO)算法，充分利用历史数据中有用信息生成策略；(3)提出基本‑对抗进阶式训练法进行意图策略生成模型训练，提供意图引导和增加训练的多样性；(4)大范围内选择初始状态，基于空战博弈框架生成空战数据，利用T‑PPO算法进行基本‑对抗进阶式训练更新模型，完成基于深度强化学习的空战意图策略自主生成。本发明提出的基于深度强化学习的空战多意图策略自主生成方法，能提升生成策略的胜率和效率并提高网络训练的速度，具有一定的有效性。

Patent Agency Ranking