规划用于自动驾驶车辆的开放空间轨迹的在线代理
Abstract:
在一个实施方式中,系统使用演员评判家强化学习(RL)模型来生成开放空间中的ADV的轨迹。系统感知ADV周围的环境,包括一个或多个障碍物。系统基于感知的环境将RL算法应用于规划轨迹的初始状态,以基于ADV的地图和车辆控制信息确定ADV达到多个轨迹状态的多个控制。系统根据目标目的地状态为每个控制确定通过RL算法的奖励预测。系统通过最大化奖励预测来从轨迹状态生成第一轨迹,以根据第一轨迹来自动地控制ADV。
Public/Granted literature
Patent Agency Ranking
0/0