共享循环神经网络的高效值函数迭代强化学习方法

    公开(公告)号:CN111582441B

    公开(公告)日:2021-07-30

    申请号:CN202010298982.2

    申请日:2020-04-16

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种共享循环神经网络的高效值函数迭代强化学习方法,该方法包括:通过智能体与环境进行交互获得样本数据,并将样本数据添加至样本池中;在样本池中随机选取样本数据作为训练样本数据;根据训练样本数据对Critic网络的输出进行归一化,并对其MLP网络和共享LSTM参数进行更新;循环迭代对Critic网络更新两次后,根据训练样本数据对Actor网络的MLP部分参数进行更新;对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络参数进行更新。该方法将循环神经网络与值函数迭代相结合,提高算法训练效率,缩短算法训练时间。

    状态部分可观测强化学习算法的高效采样更新方法及装置

    公开(公告)号:CN111582439A

    公开(公告)日:2020-08-25

    申请号:CN202010291366.4

    申请日:2020-04-14

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种状态部分可观测强化学习算法的高效采样更新方法及装置,其中,方法包括:采集智能体与环境交互生成的交互数据,并将交互数据添加至样本池中;从样本池中随机选取多条样本片段,生成训练样本数据;根据训练样本数据对更新长短时记忆网络的网络参数。根据本申请的更新方法,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。

    状态部分可观测强化学习算法的高效采样更新方法及装置

    公开(公告)号:CN111582439B

    公开(公告)日:2021-08-10

    申请号:CN202010291366.4

    申请日:2020-04-14

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种状态部分可观测强化学习算法的高效采样更新方法及装置,其中,方法包括:采集智能体与环境交互生成的交互数据,并将交互数据添加至样本池中;从样本池中随机选取多条样本片段,生成训练样本数据;根据训练样本数据对更新长短时记忆网络的网络参数。根据本申请的更新方法,可以极大缩短算法训练时间、提高算法表现,不但提高更新效率,而且有效保证更新的准确性,提升算法的使用体验。

    共享循环神经网络的高效值函数迭代强化学习方法

    公开(公告)号:CN111582441A

    公开(公告)日:2020-08-25

    申请号:CN202010298982.2

    申请日:2020-04-16

    申请人: 清华大学

    IPC分类号: G06N3/04 G06N3/08

    摘要: 本发明公开了一种共享循环神经网络的高效值函数迭代强化学习方法,该方法包括:通过智能体与环境进行交互获得样本数据,并将样本数据添加至样本池中;在样本池中随机选取样本数据作为训练样本数据;根据训练样本数据对Critic网络的输出进行归一化,并对其MLP网络和共享LSTM参数进行更新;循环迭代对Critic网络更新两次后,根据训练样本数据对Actor网络的MLP部分参数进行更新;对Critic网络中的第三Critic网络和第四Critic网络、Actor网络的第二Actor网络参数进行更新。该方法将循环神经网络与值函数迭代相结合,提高算法训练效率,缩短算法训练时间。