面向分层强化学习的多元子策略生成模型的训练方法

    公开(公告)号:CN117217287A

    公开(公告)日:2023-12-12

    申请号:CN202311000674.7

    申请日:2023-08-09

    Abstract: 本发明提供一种面向分层强化学习的多元子策略生成模型的训练方法,方法包括:确定初始分层强化学习模型;基于所述初始分层强化学习模型选择进行强化学习时的各子策略;基于所述各子策略之间的瓦式距离,确定所述各子策略之间的子策略策略网络的第一损失;基于所述第一损失,对所述初始分层强化学习模型进行参数迭代,得到所述多元子策略生成模型。本发明提供的方法,通过在具有固定数量子策略的初始分层强化学习模型中加入基于瓦式距离正则项的方法,在不改变模型原有超参数的前提下,增加多元子策略生成模型学习到的子策略的多样性,进而提升多元子策略生成模型在离散和连续动作环境下的性能表现和样本效率。

Patent Agency Ranking