-
公开(公告)号:CN113160562B
公开(公告)日:2022-04-22
申请号:CN202110337809.3
申请日:2021-03-30
Applicant: 南京大学
IPC: G08G1/01 , G08G1/0967 , G06N3/00 , G06N20/00
Abstract: 本发明公开了一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,着眼于路口场景、车辆并道任务、观测视野被楼宇和其他车辆遮挡住的部分观测条件,使用强化学习中的深度Q学习算法对给定路线的并道车辆的驾驶行为进行优化。使用低维物理信息量作为车辆的观测表征;使用基于粒子的表示处理因遮挡造成的部分观测问题;通过引入注意力机制优化状态表示,使模型可以仅接受未被遮挡到的车辆信息同时具有输入排列不变性;使用深度Q学习算法根据获取到的社会车辆信息输出当前最优驾驶动作;通过在经验回放池中加入多种车流密度下的采样数据,结合优先经验回放技术,使自主并道行为可以适应真实环境下多变的车流密度。
-
公开(公告)号:CN113189985A
公开(公告)日:2021-07-30
申请号:CN202110410291.1
申请日:2021-04-16
Applicant: 南京大学
IPC: G05D1/02
Abstract: 本发明公开一种基于自适应粒子与信念填充的部分可观察驾驶规划方法,把自动驾驶任务建模为一个部分可观察马尔科夫决策任务,并使用一种高效在线规划求解方法对其进行实时求解。由于采用了在线求解的方法,本系统能够支持对各类道路类型、障碍物类型、智能体类型的灵活建模求解,是一种通用的智能驾驶规划方法。本方法所采用的在线规划求解方法利用自适应粒子滤波实现了信念状态的高效近似,并引入了信念填充方法对相似观察分支进行合并,这使得其能够高效地求解自动驾驶这类观察空间巨大的任务。
-
公开(公告)号:CN111026127A
公开(公告)日:2020-04-17
申请号:CN201911373375.1
申请日:2019-12-27
Applicant: 南京大学
IPC: G05D1/02
Abstract: 本发明公开一种基于部分可观测迁移强化学习的自动驾驶决策方法及系统,使用情景相关的方案重用方法,通过迁移驾驶方案数据库中的现有方案来辅助解决陌生路况下的行车问题。为了达到较好的乘坐体验,使用强化学习来解决自动驾驶领域中的决策问题。系统包括情景单元、感知单元、决策单元、动作规划单元和控制单元。通过向虚拟环境数据库添加新的环境模型以应对日渐复杂的行车情景;通过在神经网络中添加卷积层来识别车辆周围的障碍物;通过在神经网络中添加长短时记忆单元来记忆重要的历史信息;通过使用基于玻尔兹曼软最大化的加权深度双Q网络算法来更准确地估计Q值;通过使用最大熵Mellowmax算法来求得各驾驶方案被选中的概率。
-
公开(公告)号:CN118493381A
公开(公告)日:2024-08-16
申请号:CN202410569772.0
申请日:2024-05-09
Applicant: 南京大学
Abstract: 本发明公开一种基于持续策略重振的离线到在线可泛化强化学习方法和装置,首先通过周期性的策略重振恢复策略网络的学习能力,打破机器人在在线学习过程中受到初始偏差的影响,从而提高针对在线分布的适应能力。接着,通过自适应的策略约束,根据策略在当前分布当中的竞争性行为表达更新策略约束的目标策略,这一机制基于机器人实时的策略访问分布和行为策略竞争表达,有效提高了机器人策略约束的稳定性和泛化性。最后,采用基于历史策略池的策略混合方法,进一步提高了机器人平衡记忆与探索的能力,确保在在线策略更新过程中,能避免发生灾难性遗忘导致策略崩塌。
-
公开(公告)号:CN111136659B
公开(公告)日:2022-06-21
申请号:CN202010040178.4
申请日:2020-01-15
Applicant: 南京大学
IPC: B25J9/16
Abstract: 本发明公开一种基于第三人称模仿学习的机械臂动作学习方法及系统,用于机械臂自动控制,使得机械臂可以通过观看第三方示范来自动学习如何完成相应的操控任务。本发明中样本均以视频形式存在,而无需使用大量传感器来获取状态信息;在判别器模块中使用了图像差分方法,可以使判别器模块忽略学习对象的外观与环境背景,从而可以使用第三方示范数据进行模仿学习;大大降低了样本的获取成本;通过在判别器模块中使用了变分判别器瓶颈来约束判别器对由机械臂产生的示范的判别准确率,更好地平衡判别器模块与控制策略模块的训练过程;本发明能够快速模仿用户示范的动作,操作简单灵活,对环境及示范者要求低。
-
公开(公告)号:CN115972211A
公开(公告)日:2023-04-18
申请号:CN202310064893.5
申请日:2023-02-06
Applicant: 南京大学
IPC: B25J9/16
Abstract: 本发明公开一种基于模型不确定性和行为先验的控制策略离线训练方法,通过在机械臂操作离线数据上训练集成动力学模型来构建对机械臂数据样本的不确定性度量,并采用变分自编码器来拟合收集该机械臂离线数据的行为先验策略,在加权贝尔曼更新的框架下仅使用机械臂离线数据来训练机械臂的控制策略。本发明能够使机械臂控制策略在离线训练的过程中有选择性地利用机械臂的离线数据集,减小不可信的机械臂数据样本对策略训练的影响,同时使可信的机械臂数据样本仍然能对策略训练起到正向作用,能够使得机械臂控制策略的离线学习过程更加稳定并提升机械臂控制策略的性能。
-
公开(公告)号:CN114970826A
公开(公告)日:2022-08-30
申请号:CN202210624473.3
申请日:2022-06-02
Applicant: 南京大学
Abstract: 本发明公开一种基于任务表征和队友感知的多智能体协作方法和装置,通过学习任务表征和队友感知,智能体能够在无通信的条件下学得高效协作策略,训练得到的智能体策略部署到多智能体系统中后,能够让智能体在与环境不断交互的过程中,根据自身的观测信息对任务有更好的感知与认识,然后结合观测中的队友的信息,与队友进行高效地配合与合作。
-
公开(公告)号:CN114911157A
公开(公告)日:2022-08-16
申请号:CN202210366719.1
申请日:2022-04-08
Applicant: 南京大学
IPC: G05B13/04
Abstract: 本发明公开了一种基于部分可观测强化学习的机器人导航控制方法及系统,该控制方法及系统主要应用于机器人在模型未知的不确定性环境的导航任务中。为在的不确定性环境下完成导航任务,本发明采用部分可观测环境下的强化学习算法。系统包括滤波单元、规划单元、回放池、学习单元。在本发明中,使用状态粒子表示信念状态以减少信念状态更新的计算复杂度,使用基于学得模型的模拟规划以提高样本利用率,使用重采样方法防止粒子退化问题,使用基于信念状态负信息熵的奖励塑形以提高算法在奖励稀疏的导航任务中的训练效率和稳定性。本发明能够在模型未知的部分可观测环境实现高效稳定的策略学习,并在实际机器人导航任务中使用学得的策略。
-
公开(公告)号:CN118672138A
公开(公告)日:2024-09-20
申请号:CN202410691027.3
申请日:2024-05-30
Applicant: 南京大学
IPC: G05B13/04
Abstract: 本发明公开一种无人机的模仿决策方法,根据人类的偏好数据实时模仿,控制无人机完成人类的指定任务。该方法利用深度学习和强化学习技术,通过从人类示范中提取关键状态和行为模式,构建适应动态环境变化的决策模型。所述决策模型采用一种基于演示的注意力机制深度学习网络架构,使得无人机能够在复杂环境中自主学习并优化自身行为,以适应未预见的情况。该方法通过将单视演示学习(OSIL)融入上下文驱动的元强化学习框架中,使得无人机在面对新任务和环境变化时,能够迅速调整策略,提高任务完成的准确性和效率。本发明所提出的方法在处理动态环境中的突发变化方面表现优越,具有广泛的应用前景。
-
公开(公告)号:CN118466550A
公开(公告)日:2024-08-09
申请号:CN202410701834.9
申请日:2024-05-31
Applicant: 南京大学
IPC: G05D1/46 , G05D109/20
Abstract: 本发明公开一种基于隐函数学习的无人机模拟器学习方法,旨在解决现有无人机模拟器难以学习飞行控制问题中复杂的转移函数问题。由于飞行控制中存在各种非平滑、突变等情况,传统模拟器难以学习复杂任务的转移,本发明提出的隐函数模型能够更好地适应各种复杂的非平滑情况,并具有更强的外推泛化能力。该模拟器利用隐函数,即能量函数模型,对离线收集的数据进行学习。通过该方法,能够更有效地建模离线数据的特征以及分布,进一步的作为强化学习的环境模型从而高效的学习策略。本发明可被广泛应用于各种方法和领域,为离线数据模拟提供了一种新的技术途径。
-
-
-
-
-
-
-
-
-