一种面向多任务的舰艇集群规划控制方法
摘要:
本发明公开了一种面向多任务的舰艇集群规划控制方法,包括以下步骤:基于强化学习优化算法对海域的仿真数据进行训练,训练过程中使用多个进程进行多任务并行训练;每个舰艇计算其动作价值函数与状态价值函数之间的差异,得到优势值,并将优势值与方向熵结合,鼓励舰艇在尽可能在熵减的方向选择优势值;计算估计的优势值与基于方向熵的优势值之间的误差,并基于误差计算Q函数;采用强化学习方式进行决策;将海域实际状态输入训练后的强化学习模型中,输出各舰艇的行动策略。本申请通过每艘舰艇计算基于方向熵的优势值,并将每艘舰艇与指挥中心估计的优势值的偏差进行优化,以此来进一步调整在每个任务中的调度决策。
0/0