应用于非循迹智能小车避障系统的强化学习算法

    公开(公告)号:CN105139072A

    公开(公告)日:2015-12-09

    申请号:CN201510570592.5

    申请日:2015-09-09

    申请人: 东华大学

    IPC分类号: G06N3/08

    摘要: 本发明公开了一种强化学习算法,其包括新Q学习算法,新Q学习算法包括以下实现步骤:将采集好的数据输入到BP神经网络中,计算状态隐含层和输出层各个单元的输入和输出;在t状态就算出其最大输出值m,基于这个输出判断是否与障碍物发生碰撞,如果发生了碰撞则记录下BP神经网络的各单元阈值和各连接权值;否则计算T+1时刻采集数据并归一化,计算t+1状态隐含层和输出层各个单元的输入和输出,计算t状态期望输出值,调整输出和隐含层各个单元的阈值,判断误差是否小于给定阈值或学习次数大于给定值,如果不符合条件则重新学习,不然记录下各个单元的阈值和各个连接权值,结束学习。本发明实时性好、快速性好、可后期重学习。