-
公开(公告)号:CN113110592B
公开(公告)日:2022-09-23
申请号:CN202110488468.X
申请日:2021-05-06
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种无人机避障与路径规划方法,结合蒙特卡洛树搜索与对比强化学习算法,克服GPS在特定环境中信号不足的问题,实现无人机在复杂环境中避障与路径选择的功能。包括以下几个步骤:(1)构造环境仿真模拟器。(2)无人机在模拟器中获得观测信息,利用深度神经网络处理观测信息。(3)利用蒙特卡洛树搜索进行粗粒度的路径规划,生成无人机前进路径中的阶段性目标点,用于后续强化学习算法的训练。(4)利用强化学习学习无人机精细的控制策略和细粒度的路径规划。(5)基于对比学习加速无人机训练。本发明方法使得无人机在难度系数高,不确定因素大的复杂环境中有自主决策能力,在相当程度上可应对突发情况,完成特定任务。
-
公开(公告)号:CN114265986B
公开(公告)日:2022-07-12
申请号:CN202210184063.1
申请日:2022-02-28
Applicant: 南京大学
IPC: G06F16/9535 , G06N5/02 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种融合知识图谱结构与路径语义的信息推送方法和系统,包括:基于用户物品行为图和物品关联知识图谱构建融合图;将异构节点表示映射到统一语义空间;使用图神经网络对融合图中的行为子图和物品子图逐层交替更新;对用户和物品节点之间游走采样得到路径集合并加权融合生成路径表示;联合用户和物品节点表示及其二者间路径表示计算匹配得分训练推荐系统模型;基于推荐系统模型对用户推送感兴趣的物品信息。本发明综合考量结构信息和路径语义计算用户和物品相似度进行物品信息推送,提供了一种更为合理的信息融合手段,此项技术可以应用于物品信息推送尤其是稀疏场景下的用户物品表示学习。
-
公开(公告)号:CN113276883A
公开(公告)日:2021-08-20
申请号:CN202110464610.7
申请日:2021-04-28
Applicant: 南京大学
Abstract: 本发明公开一种基于动态生成环境的无人车行驶策略规划方法及实现装置,(1)在模拟器中构建无人驾驶环境。(2)初始化强化学习参数及网络策略模型。(3)与环境交互,收集无人驾驶车辆当前状态,由策略网络进行动作采样,在模拟器中执行动作并进入新的状态。(4)收集车辆在一段生成环境中的累积奖励以及是否成功完成任务,并建立一段新的生成环境。(5)对于车辆的行驶策略,在重复(3)中的操作采集一定强化学习样本后,进行强策略迭代。(6)对于车辆所面临的环境,将由(4)中所述的模式不断生成,并基于对是否成功以及累积奖励的收集,抽取那些失败道路以及低累积奖励道路的环境参数,在这些路段进行反复多次训练。(7)持续上述步骤训练直到策略收敛。
-
公开(公告)号:CN113110592A
公开(公告)日:2021-07-13
申请号:CN202110488468.X
申请日:2021-05-06
Applicant: 南京大学
IPC: G05D1/10
Abstract: 本发明公开一种无人机避障与路径规划方法,结合蒙特卡洛树搜索与对比强化学习算法,克服GPS在特定环境中信号不足的问题,实现无人机在复杂环境中避障与路径选择的功能。包括以下几个步骤:(1)构造环境仿真模拟器。(2)无人机在模拟器中获得观测信息,利用深度神经网络处理观测信息。(3)利用蒙特卡洛树搜索进行粗粒度的路径规划,生成无人机前进路径中的阶段性目标点,用于后续强化学习算法的训练。(4)利用强化学习学习无人机精细的控制策略和细粒度的路径规划。(5)基于对比学习加速无人机训练。本发明方法使得无人机在难度系数高,不确定因素大的复杂环境中有自主决策能力,在相当程度上可应对突发情况,完成特定任务。
-
公开(公告)号:CN113110546B
公开(公告)日:2022-09-23
申请号:CN202110422019.5
申请日:2021-04-20
Applicant: 南京大学
Abstract: 本发明公开一种基于离线强化学习的无人机自主飞行控制方法,包含以下步骤:(1)人为控制无人机执行飞行任务,收集无人机在现实环境中的飞行数据,生成数据集。(2)基于数据集,根据飞行状态和动作设计奖赏函数。(3)基于离线强化学习算法,仅利用数据集训练自主飞行控制策略。(4)在现实环境中,使用自主飞行控制策略操控无人机执行飞行任务,无人机操作员实时监控,测试控制策略性能并收集飞行数据。(5)把收集的新飞行数据加入数据集。(6)迭代执行步骤(2)(3)(4)(5),直到自主飞行控制策略能够完成飞行任务。本发明能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略,适用于复杂多变的现实环境。
-
公开(公告)号:CN114265986A
公开(公告)日:2022-04-01
申请号:CN202210184063.1
申请日:2022-02-28
Applicant: 南京大学
IPC: G06F16/9535 , G06N5/02 , G06N3/04 , G06N3/08
Abstract: 本发明公开一种融合知识图谱结构与路径语义的信息推送方法和系统,包括:基于用户物品行为图和物品关联知识图谱构建融合图;将异构节点表示映射到统一语义空间;使用图神经网络对融合图中的行为子图和物品子图逐层交替更新;对用户和物品节点之间游走采样得到路径集合并加权融合生成路径表示;联合用户和物品节点表示及其二者间路径表示计算匹配得分训练推荐系统模型;基于推荐系统模型对用户推送感兴趣的物品信息。本发明综合考量结构信息和路径语义计算用户和物品相似度进行物品信息推送,提供了一种更为合理的信息融合手段,此项技术可以应用于物品信息推送尤其是稀疏场景下的用户物品表示学习。
-
公开(公告)号:CN113286275A
公开(公告)日:2021-08-20
申请号:CN202110441049.0
申请日:2021-04-23
Applicant: 南京大学
Abstract: 本发明公开一种基于多智能体强化学习的无人机集群高效通信方法,构建无人机飞行环境模拟器;随机选取一架无人机作为队长并标记;每架无人机获取并维护本机的局部观测值,将自身观测值进行编码并发送给队长;队长根据每架无人机的自身观测值,分别对全局观测值进行attention注意力机制处理,根据信息的重要程度来决定信息的权重,继而将计算好的观测值发送给每个队友,作为队友的全局观测值;训练阶段以全局观测值作为训练数据,直到策略网络收敛;执行阶段以分布式的方式进行;对队长的存活给一个额外的奖励。本发明可以在通信开销较小的条件下解决无人机集群集中式信息交互的问题,给予无人机自主决策权。
-
公开(公告)号:CN113283426A
公开(公告)日:2021-08-20
申请号:CN202110478018.2
申请日:2021-04-30
Applicant: 南京大学
Abstract: 本发明公开一种基于多目标神经网络搜索的嵌入式目标检测模型生成方法,选择嵌入式目标检测模型的基础检测结构并设定搜索空间;构建包含搜索空间中所有子网络的超网络;将训练好的超网络联合设定好的检测头在目标检测数据集上进行微调;在搜索前通过批量枚举搜索空间中的子网络,自动构建可推理的模型,并将模型部署到嵌入式设备上进行运行时间的测试,建立搜索空间中子网络结构编码与运行时延之间的速查表;使用强化学习的方法展开搜索;搜索过程使得网络结构朝着多个目标的方向优化;维护一个帕累托最优解集来获得符合多目标要求的目标检测模型;选择帕累托最优解集中的元素,将其对应的检测网络在嵌入式平台上进行编译部署。
-
公开(公告)号:CN113110550B
公开(公告)日:2022-09-23
申请号:CN202110442229.0
申请日:2021-04-23
Applicant: 南京大学
Abstract: 本发明公开一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,构建无人机环境模拟器;基于强化学习算法,在不同场景中进行大规模训练,得到最优控制策略,以此构建无人机飞行控制系统;基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。本发明基于强化学习算法,通过在模拟器中大规模训练,使无人机自主学习控制策略,构建无人机控制系统;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避陌生场景,减少安全风险。
-
公开(公告)号:CN114970826A
公开(公告)日:2022-08-30
申请号:CN202210624473.3
申请日:2022-06-02
Applicant: 南京大学
Abstract: 本发明公开一种基于任务表征和队友感知的多智能体协作方法和装置,通过学习任务表征和队友感知,智能体能够在无通信的条件下学得高效协作策略,训练得到的智能体策略部署到多智能体系统中后,能够让智能体在与环境不断交互的过程中,根据自身的观测信息对任务有更好的感知与认识,然后结合观测中的队友的信息,与队友进行高效地配合与合作。
-
-
-
-
-
-
-
-
-