-
公开(公告)号:CN116485039A
公开(公告)日:2023-07-25
申请号:CN202310676576.9
申请日:2023-06-08
申请人: 中国人民解放军96901部队
IPC分类号: G06Q10/04 , G06Q10/0631 , G06Q50/26 , G06N3/045 , G06N3/092
摘要: 本发明提供一种基于强化学习的打击序列智能规划方法,包括以下步骤:S1、建立大规模交战序列规划问题的PPO强化学习网络模型;S2、根据建立的所述网络模型进行模型训练,生成大规模交战序列规划问题的PPO强化学习网络模型结果;S3、应用得到的训练结果求解大规模交战序列规划问题,并根据应用场景变化进行大规模交战序列规划问题PPO强化学习网络的优化,完成所述PPO强化学习网络模型的自学习与在线升级。本发明的基于强化学习的打击序列智能规划方法,通过设计大规模交战序列规划问题强化学习求解环境的状态、动作和奖励,实现了大规模交战序列规划问题的快速、高效、自动求解。
-
公开(公告)号:CN116485039B
公开(公告)日:2023-10-13
申请号:CN202310676576.9
申请日:2023-06-08
申请人: 中国人民解放军96901部队
IPC分类号: G06Q10/04 , G06Q10/0631 , G06Q50/26 , G06N3/045 , G06N3/092
摘要: 本发明提供一种基于强化学习的打击序列智能规划方法,包括以下步骤:S1、建立大规模交战序列规划问题的PPO强化学习网络模型;S2、根据建立的所述网络模型进行模型训练,生成大规模交战序列规划问题的PPO强化学习网络模型结果;S3、应用得到的训练结果求解大规模交战序列规划问题,并根据应用场景变化进行大规模交战序列规划问题PPO强化学习网络的优化,完成所述PPO强化学习网络模型的自学习与在线升级。本发明的基于强化学习的打击序列智能规划方法,通过设计大规模交战序列规划问题强化学习求解环境的状态、动作和奖励,实现了大规模交战序列规划问题的快速、高效、自动求解。
-