-
公开(公告)号:CN116796872A
公开(公告)日:2023-09-22
申请号:CN202210226729.5
申请日:2022-03-09
申请人: 南京大学 , 北京三快在线科技有限公司
IPC分类号: G06Q10/04 , G06Q10/0631 , G06Q10/083 , G06Q30/0601
摘要: 本公开涉及一种模型训练、信息处理方法、装置、介质及电子设备。方法包括:获取训练数据,包括参考运力在第一时段的第一状态信息、第一奖励信息及第二时段的第二状态信息;根据第一状态信息和第一奖励信息,通过目标模型预测第一时段的第一接单响应信息和第二时段的第二奖励信息;根据第二状态信息和第二奖励信息,通过模型预测第二时段的第二接单响应信息;以目标置信度参数与第一联合概率分布的乘积最小化为目标,对模型进行参数更新;若不满足训练截止条件,则返回获取训练数据的步骤;否则,获得奖励预测模型。这样,能在有较强确定性和选择偏差的数据集中重构出在反事实数据中具有良好泛化能力的奖励预测模型,使下游求解出正确的决策动作。
-
公开(公告)号:CN116562734A
公开(公告)日:2023-08-08
申请号:CN202310567161.8
申请日:2023-05-19
申请人: 南京大学 , 北京三快在线科技有限公司
IPC分类号: G06Q10/083 , G06Q30/0601 , G06Q10/04 , G06N3/0455 , G06N3/092
摘要: 本发明公开一种在群组上的隐外生变量发现方法,适用于配送场景的预测,根据系统记录获取所需的内生变量数据集,并获得辅助变量;根据内生变量、辅助变量和隐外生变量情况构建网络;在拥有相同隐外生变量且独立采样的同质群组上,进行隐外生变量发现;获得隐外生变量结果和转移模型。本发明解决了配送场景中存在不可观测的隐外生变量的问题,该问题会造成配送场景无法准确进行转移预测,通过对隐外生变量的发现,填补缺失数据,我们可以更加准确地模拟配送场景,提高模型的预测能力,进而提升用户的配送体验。
-
公开(公告)号:CN114861992A
公开(公告)日:2022-08-05
申请号:CN202210408938.1
申请日:2022-04-19
申请人: 南京大学 , 北京三快在线科技有限公司
摘要: 本说明书公开了一种模型训练的方法、运力分配的方法以及装置。首先,获取历史数据。其次,将历史数据输入到待训练的生成器中,以预测在指定时刻配送区域内配送运力的运力数据,作为预测运力数据。而后,根据预测运力数据,以及确定出的在指定时刻配送区域对应的区域状况数据,构建第一训练样本。然后,将第一训练样本输入到预设的判别器中,确定第一训练样本属于真实数据的置信度,并确定第一训练样本对应的奖励值。最后,以最大化第一训练样本对应的奖励值,对生成器进行训练。本方法可以通过基于判别器确定出的第一训练样本属于真实数据的置信度,得到第一训练样本对应的奖励值,对生成器进行训练,使得生成器确定出更加准确的预测运力数据。
-
公开(公告)号:CN113269040A
公开(公告)日:2021-08-17
申请号:CN202110445391.8
申请日:2021-04-25
申请人: 南京大学
摘要: 本发明公开一种结合图象识别与激光雷达点云分割的驾驶环境感知方法,包括:(1)在真实道路上,收集地面激光雷达点云数据和图像数据。(2)使用收集的图像数据作为参考,将激光雷达点云数据与图像数据进行标定,标记收集的激光雷达点云数据。(3)初始化点云分割网络,对标记的激光雷达点云数据进行训练,更新网络参数。(4)将训练好的网络移植到无人车工控机中,获得点云所属物体的类别。(5)对图像数据进行识别。(6)对分割后的激光雷达点云数据与图像识别后的图像数据进行融合,获取道路和物体所在的准确位置。本发明实时感知环境,克服了图像识别在天气不好、光线较差的情况下识别效果不佳的缺点。
-
公开(公告)号:CN113110546A
公开(公告)日:2021-07-13
申请号:CN202110422019.5
申请日:2021-04-20
申请人: 南京大学
摘要: 本发明公开一种基于离线强化学习的无人机自主飞行控制方法,包含以下步骤:(1)人为控制无人机执行飞行任务,收集无人机在现实环境中的飞行数据,生成数据集。(2)基于数据集,根据飞行状态和动作设计奖赏函数。(3)基于离线强化学习算法,仅利用数据集训练自主飞行控制策略。(4)在现实环境中,使用自主飞行控制策略操控无人机执行飞行任务,无人机操作员实时监控,测试控制策略性能并收集飞行数据。(5)把收集的新飞行数据加入数据集。(6)迭代执行步骤(2)(3)(4)(5),直到自主飞行控制策略能够完成飞行任务。本发明能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略,适用于复杂多变的现实环境。
-
公开(公告)号:CN118672138A
公开(公告)日:2024-09-20
申请号:CN202410691027.3
申请日:2024-05-30
申请人: 南京大学
IPC分类号: G05B13/04
摘要: 本发明公开一种无人机的模仿决策方法,根据人类的偏好数据实时模仿,控制无人机完成人类的指定任务。该方法利用深度学习和强化学习技术,通过从人类示范中提取关键状态和行为模式,构建适应动态环境变化的决策模型。所述决策模型采用一种基于演示的注意力机制深度学习网络架构,使得无人机能够在复杂环境中自主学习并优化自身行为,以适应未预见的情况。该方法通过将单视演示学习(OSIL)融入上下文驱动的元强化学习框架中,使得无人机在面对新任务和环境变化时,能够迅速调整策略,提高任务完成的准确性和效率。本发明所提出的方法在处理动态环境中的突发变化方面表现优越,具有广泛的应用前景。
-
公开(公告)号:CN113281999A
公开(公告)日:2021-08-20
申请号:CN202110441572.3
申请日:2021-04-23
申请人: 南京大学
摘要: 本发明公开一种基于强化学习和迁移学习的无人机自主飞行训练方法(1)创建无人机仿真模拟器环境;(2)构建基于深度学习的环境转移模型,并随机初始化其中的映射;(3)构建强化学习的A3C算法,并随机初始化其飞行策略;(4)构建基于深度学习的环境逆转移模型;(5)收集无人机操作员和策略在现实环境下操作无人机进行飞行得到的飞行数据;(6)基于现实飞行数据,更新环境转移模型;(7)使用和进行基于动作校正的迁移学习,校正飞行策略,并在模拟器执行得到模拟飞行数据;(8)基于模拟飞行数据,使用A3C算法更新飞行策略,同时更新环境逆转移模型。直至策略收敛。最终得到策略作为的现实无人机的初始飞行策略。
-
公开(公告)号:CN113276852B
公开(公告)日:2022-09-23
申请号:CN202110375328.1
申请日:2021-04-08
申请人: 南京大学
摘要: 本发明公开一种基于最大熵强化学习框架的无人驾驶车道保持方法,包括:(1)创建无人车仿真道路环境;设置环境车行驶策略和行人的运动模型,设计奖励函数以及碰撞检测条件;(2)利用深度神经网络近似状态值函数、动作值函数以及策略,并初始化网络参数;(3)获得无人车初始状态,使其与环境交互,收集数据,并存储到缓冲池;(4)对状态值函数网络、动作值函数网络以及策略网络进行更新;(5)对目标值函数网络进行更新,直到策略网络将近收敛;(6)将状态值网络优化目标中熵项系数置零,继续训练直到策略网络完全收敛;(7)对于训练好的策略模型,根据网络输出的动作概率分布,选择概率值最大的动作给无人车执行。
-
公开(公告)号:CN113110546B
公开(公告)日:2022-09-23
申请号:CN202110422019.5
申请日:2021-04-20
申请人: 南京大学
摘要: 本发明公开一种基于离线强化学习的无人机自主飞行控制方法,包含以下步骤:(1)人为控制无人机执行飞行任务,收集无人机在现实环境中的飞行数据,生成数据集。(2)基于数据集,根据飞行状态和动作设计奖赏函数。(3)基于离线强化学习算法,仅利用数据集训练自主飞行控制策略。(4)在现实环境中,使用自主飞行控制策略操控无人机执行飞行任务,无人机操作员实时监控,测试控制策略性能并收集飞行数据。(5)把收集的新飞行数据加入数据集。(6)迭代执行步骤(2)(3)(4)(5),直到自主飞行控制策略能够完成飞行任务。本发明能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略,适用于复杂多变的现实环境。
-
公开(公告)号:CN113286275A
公开(公告)日:2021-08-20
申请号:CN202110441049.0
申请日:2021-04-23
申请人: 南京大学
摘要: 本发明公开一种基于多智能体强化学习的无人机集群高效通信方法,构建无人机飞行环境模拟器;随机选取一架无人机作为队长并标记;每架无人机获取并维护本机的局部观测值,将自身观测值进行编码并发送给队长;队长根据每架无人机的自身观测值,分别对全局观测值进行attention注意力机制处理,根据信息的重要程度来决定信息的权重,继而将计算好的观测值发送给每个队友,作为队友的全局观测值;训练阶段以全局观测值作为训练数据,直到策略网络收敛;执行阶段以分布式的方式进行;对队长的存活给一个额外的奖励。本发明可以在通信开销较小的条件下解决无人机集群集中式信息交互的问题,给予无人机自主决策权。
-
-
-
-
-
-
-
-
-