EADP控制器的离线训练方法和系统及其在线控制方法和系统
摘要:
本发明公开了一种用于交叉路口交通信号控制的EADP控制器离线训练方法和系统以及EADP控制器在线控制方法和系统。其中,该方法包括:根据得到的系统状态和构建好的各子ADP控制器的Action网络和Critic网络,确定回报函数、系统控制参数和性能指标;并根据性能指标和回报函数交替地训练各子ADP控制器的Critic网络以及根据性能指标和系统控制参数交替地训练各子ADP控制器的Action网络,以更新Critic网络的权值和Action网络的权值;确定在训练达到训练目标时,记录各子ADP控制器的Action网络的权值和Critic网络的权值。通过本发明实施例解决了传统ADP控制器稳定性难以保证的技术问题,进而实现了对交通信号的自适应控制。
0/0