基于深度强化学习单路口交通信号控制方法、系统、装置

    公开(公告)号:CN110428615B

    公开(公告)日:2021-06-22

    申请号:CN201910629489.1

    申请日:2019-07-12

    IPC分类号: G08G1/01 G08G1/08 G06N20/00

    摘要: 本发明属于城市交通控制领域,具体涉及了一种基于深度强化学习单路口交通信号控制方法、系统、装置,旨在解决复杂交通状况的交通信号控制效果不好的问题。本发明方法包括:建立微观交通仿真环境并定义参数,设定评判网络、交通信号生成网络;基于当前阶段以及前一阶段数据计算评判网络的训练误差并更新网络参数;基于更新后的评判网络、当前阶段以及前一阶段数据,计算更新后的评判网络训练误差,并更新评判网络、交通信号生成网络参数;采用训练好的交通信号生成网络获取交叉口信号灯下一相位时长。本发明减少了事先了解路口车流量信息的调研工作,并能够随路口车流量需求改变而及时做出调整,大大提高了复杂交通状况的交通信号控制的效果。

    一种面向空战一对一博弈对抗的飞行器控制方法及装置

    公开(公告)号:CN116699978A

    公开(公告)日:2023-09-05

    申请号:CN202310127494.9

    申请日:2023-02-06

    IPC分类号: G05B13/04

    摘要: 本发明提供一种面向空战一对一博弈对抗的飞行器控制方法及装置,该方法包括:获取第一飞行器所在环境对应的外层状态信息,外层状态信息包括第一飞行器对应的相关状态信息及第二飞行器相对于第一飞行器的位置信息;将外层状态信息输入至外层策略网络中,得到外层策略网络输出的外层指令;将第一飞行器对应的内层状态信息输入至内层飞行控制器网络,得到内层飞行控制器网络输出的内层动作,内层状态信息包括相关状态信息及外层指令中的目标控制信号;根据外层指令及多个内层动作,控制第一飞行器对抗第二飞行器。该方法使得第一飞行器具有较高的自主智能决策能力,能够对第二飞行器进行有效且准确地对抗。

    基于强化学习的变化环境多智能体控制方法与装置

    公开(公告)号:CN113837348A

    公开(公告)日:2021-12-24

    申请号:CN202110858503.2

    申请日:2021-07-28

    摘要: 本发明提供一种基于强化学习的变化环境多智能体控制方法与装置,包括:将当前环境信息和各个智能体的隐含状态输入到智能体网络,得到智能体网络输出的各个智能体的观测动作价值;观测动作价值用于表征对应智能体当前执行所有动作的预估价值;基于各个智能体的观测动作价值,控制各个智能体执行动作;其中,智能体网络是基于样本环境信息和样本智能体的样本隐含状态,联合自加权网络进行强化学习得到的;自加权网络用于确定所有样本智能体执行动作的联合动作价值;在强化学习过程中,自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能够避免变化环境中智能体数量动态变化对训练过程的影响。

    基于深度强化学习单路口交通信号控制方法、系统、装置

    公开(公告)号:CN110428615A

    公开(公告)日:2019-11-08

    申请号:CN201910629489.1

    申请日:2019-07-12

    IPC分类号: G08G1/01 G08G1/08 G06N20/00

    摘要: 本发明属于城市交通控制领域,具体涉及了一种基于深度强化学习单路口交通信号控制方法、系统、装置,旨在解决复杂交通状况的交通信号控制效果不好的问题。本发明方法包括:建立微观交通仿真环境并定义参数,设定评判网络、交通信号生成网络;基于当前阶段以及前一阶段数据计算评判网络的训练误差并更新网络参数;基于更新后的评判网络、当前阶段以及前一阶段数据,计算更新后的评判网络训练误差,并更新评判网络、交通信号生成网络参数;采用训练好的交通信号生成网络获取交叉口信号灯下一相位时长。本发明减少了事先了解路口车流量信息的调研工作,并能够随路口车流量需求改变而及时做出调整,大大提高了复杂交通状况的交通信号控制的效果。