一种无人机避障与路径规划方法

    公开(公告)号:CN113110592B

    公开(公告)日:2022-09-23

    申请号:CN202110488468.X

    申请日:2021-05-06

    申请人: 南京大学

    IPC分类号: G05D1/10

    摘要: 本发明公开一种无人机避障与路径规划方法,结合蒙特卡洛树搜索与对比强化学习算法,克服GPS在特定环境中信号不足的问题,实现无人机在复杂环境中避障与路径选择的功能。包括以下几个步骤:(1)构造环境仿真模拟器。(2)无人机在模拟器中获得观测信息,利用深度神经网络处理观测信息。(3)利用蒙特卡洛树搜索进行粗粒度的路径规划,生成无人机前进路径中的阶段性目标点,用于后续强化学习算法的训练。(4)利用强化学习学习无人机精细的控制策略和细粒度的路径规划。(5)基于对比学习加速无人机训练。本发明方法使得无人机在难度系数高,不确定因素大的复杂环境中有自主决策能力,在相当程度上可应对突发情况,完成特定任务。

    一种基于强化学习和迁移学习的无人机自主飞行训练方法

    公开(公告)号:CN113281999A

    公开(公告)日:2021-08-20

    申请号:CN202110441572.3

    申请日:2021-04-23

    申请人: 南京大学

    IPC分类号: G05B13/04 G06N3/04 G06N20/20

    摘要: 本发明公开一种基于强化学习和迁移学习的无人机自主飞行训练方法(1)创建无人机仿真模拟器环境;(2)构建基于深度学习的环境转移模型,并随机初始化其中的映射;(3)构建强化学习的A3C算法,并随机初始化其飞行策略;(4)构建基于深度学习的环境逆转移模型;(5)收集无人机操作员和策略在现实环境下操作无人机进行飞行得到的飞行数据;(6)基于现实飞行数据,更新环境转移模型;(7)使用和进行基于动作校正的迁移学习,校正飞行策略,并在模拟器执行得到模拟飞行数据;(8)基于模拟飞行数据,使用A3C算法更新飞行策略,同时更新环境逆转移模型。直至策略收敛。最终得到策略作为的现实无人机的初始飞行策略。

    一种固定翼无人机自主控制协作策略训练方法

    公开(公告)号:CN112034888B

    公开(公告)日:2021-07-30

    申请号:CN202010944803.8

    申请日:2020-09-10

    申请人: 南京大学

    IPC分类号: G05D1/10

    摘要: 本发明公开一种固定翼无人机自主控制协作策略训练方法,包含以下步骤:(1)基于动力学构建固定翼无人机操控仿真环境Es,采集飞行员控制无人机的真实轨迹数据,通过监督学习的方式学习得到无人机飞行控制策略;(2)构建简化的剥离了飞行控制的抽象环境Ea,创建分组对抗的两组无人机群,使用APEX_QMIX算法学习得到协作策略;(3)以分层强化学习的方式将飞行控制策略和协作策略进行组合,在仿真环境Es中进学得融合策略;(3)迁移到真实环境。本发明方法在现实场景中意义重大,具有泛化性好,成本低,鲁棒性强等特性。

    一种无人机避障与路径规划方法

    公开(公告)号:CN113110592A

    公开(公告)日:2021-07-13

    申请号:CN202110488468.X

    申请日:2021-05-06

    申请人: 南京大学

    IPC分类号: G05D1/10

    摘要: 本发明公开一种无人机避障与路径规划方法,结合蒙特卡洛树搜索与对比强化学习算法,克服GPS在特定环境中信号不足的问题,实现无人机在复杂环境中避障与路径选择的功能。包括以下几个步骤:(1)构造环境仿真模拟器。(2)无人机在模拟器中获得观测信息,利用深度神经网络处理观测信息。(3)利用蒙特卡洛树搜索进行粗粒度的路径规划,生成无人机前进路径中的阶段性目标点,用于后续强化学习算法的训练。(4)利用强化学习学习无人机精细的控制策略和细粒度的路径规划。(5)基于对比学习加速无人机训练。本发明方法使得无人机在难度系数高,不确定因素大的复杂环境中有自主决策能力,在相当程度上可应对突发情况,完成特定任务。

    基于模仿学习和强化学习算法的无人机飞行控制方法

    公开(公告)号:CN112162564A

    公开(公告)日:2021-01-01

    申请号:CN202011020765.3

    申请日:2020-09-25

    申请人: 南京大学

    IPC分类号: G05D1/08 G05D1/10

    摘要: 本发明公开一种基于模仿学习和强化学习算法的无人机飞行控制方法:创建无人机飞行仿真环境模拟器;定义飞行的基本动作集合;根据飞行基本动作将轨迹数据进行分类;对于每个飞行动作,利用模仿学习学出从飞行基本动作到原始动作的映射网络参数;统计每个基本动作的最小连续行动数量;构建上层的强化学习网络,并将最小连续行动数量作为飞机动作不一致性的惩罚p加入;在模拟器中,获取当前的观测信息和奖励,使用pDQN算法,选取对应飞行基本动作;将飞机自身的状态信息输入到飞行基本行动对应的模仿学习神经网络中,输出模拟器的原始行动;将得到的原始行动输入到模拟器中获取下个时刻的观测和奖励;使用pDQN算法进行训练,直到上层的策略网络收敛。

    一种无人机自主跟拍运动目标的方法

    公开(公告)号:CN112131661A

    公开(公告)日:2020-12-25

    申请号:CN202010946929.9

    申请日:2020-09-10

    申请人: 南京大学

    摘要: 本发明公开一种无人机自主跟拍运动目标的方法,包括在模拟器中训练跟拍虚拟目标,实现步骤为:(1)构建无人机模拟器;(2)在无人机模拟器中采集样本;(3)利用采集样本进行无人机飞行控制策略训练;所述无人机飞行控制策略训练过程中,使用神经网络来表示初始无人机飞行控制策略模型,用当前的初始飞行控制策略模型在无人机模拟器中控制无人机,在无人机模拟器提供的马尔科夫过程中采样,针对收集到的样本,用近端策略优化的方法优化当前初始飞行控制策略模型,直至初始飞行控制策略模型不再提升,得到无人机飞行控制策略模型。相比以往的手工控制无人机航拍的方法,使用强化学习学出的飞行控制策略,由于训练采样丰富,往往能够面对各种复杂情况,有反应灵活、控制平稳、人力成本低等优点。

    一种基于课程学习的无人机空中博弈对抗的解决方法

    公开(公告)号:CN113282061A

    公开(公告)日:2021-08-20

    申请号:CN202110445367.4

    申请日:2021-04-25

    申请人: 南京大学

    摘要: 本发明公开一种基于课程学习的无人机空中博弈对抗的解决方法,包含以下步骤:(1)构建仿真模拟环境;(2)收集飞行员控制飞机的真实轨迹数据,将轨迹数据按照机动动作难度进行课程目标分类;(3)对指定课程目标下的轨迹,通过模仿学习来优化策略模型生成的轨迹和专家轨迹的相似度;(4)获得预训练无人机策略模型;(5)基于预训练无人机策略模型,在模拟器中创建敌我双方无人机智能体;(6)无人机在模拟器中获得当前时刻的观测;(7)无人机与模拟环境进行交互,将我方与敌方无人机对抗的任务建模为一个强化学习智能体与环境交互的问题,用强化学习算法优化无人机对抗的飞行策略;(8)获得无人机进行空中博弈对抗的有效策略。

    结合图象识别与激光雷达点云分割的驾驶环境感知方法

    公开(公告)号:CN113269040A

    公开(公告)日:2021-08-17

    申请号:CN202110445391.8

    申请日:2021-04-25

    申请人: 南京大学

    IPC分类号: G06K9/00 G06K9/34 G06N3/04

    摘要: 本发明公开一种结合图象识别与激光雷达点云分割的驾驶环境感知方法,包括:(1)在真实道路上,收集地面激光雷达点云数据和图像数据。(2)使用收集的图像数据作为参考,将激光雷达点云数据与图像数据进行标定,标记收集的激光雷达点云数据。(3)初始化点云分割网络,对标记的激光雷达点云数据进行训练,更新网络参数。(4)将训练好的网络移植到无人车工控机中,获得点云所属物体的类别。(5)对图像数据进行识别。(6)对分割后的激光雷达点云数据与图像识别后的图像数据进行融合,获取道路和物体所在的准确位置。本发明实时感知环境,克服了图像识别在天气不好、光线较差的情况下识别效果不佳的缺点。

    一种基于强化学习与网络模型蒸馏的无人机飞行控制方法

    公开(公告)号:CN113110550A

    公开(公告)日:2021-07-13

    申请号:CN202110442229.0

    申请日:2021-04-23

    申请人: 南京大学

    IPC分类号: G05D1/08 G05D1/10

    摘要: 本发明公开一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,构建无人机环境模拟器;基于强化学习算法,在不同场景中进行大规模训练,得到最优控制策略,以此构建无人机飞行控制系统;基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。本发明基于强化学习算法,通过在模拟器中大规模训练,使无人机自主学习控制策略,构建无人机控制系统;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避陌生场景,减少安全风险。

    一种基于离线强化学习的无人机自主飞行控制方法

    公开(公告)号:CN113110546A

    公开(公告)日:2021-07-13

    申请号:CN202110422019.5

    申请日:2021-04-20

    申请人: 南京大学

    IPC分类号: G05D1/08 G05D1/10

    摘要: 本发明公开一种基于离线强化学习的无人机自主飞行控制方法,包含以下步骤:(1)人为控制无人机执行飞行任务,收集无人机在现实环境中的飞行数据,生成数据集。(2)基于数据集,根据飞行状态和动作设计奖赏函数。(3)基于离线强化学习算法,仅利用数据集训练自主飞行控制策略。(4)在现实环境中,使用自主飞行控制策略操控无人机执行飞行任务,无人机操作员实时监控,测试控制策略性能并收集飞行数据。(5)把收集的新飞行数据加入数据集。(6)迭代执行步骤(2)(3)(4)(5),直到自主飞行控制策略能够完成飞行任务。本发明能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略,适用于复杂多变的现实环境。