基于人类偏好的无人机实时模仿决策方法

    公开(公告)号:CN118672138A

    公开(公告)日:2024-09-20

    申请号:CN202410691027.3

    申请日:2024-05-30

    申请人: 南京大学

    IPC分类号: G05B13/04

    摘要: 本发明公开一种无人机的模仿决策方法,根据人类的偏好数据实时模仿,控制无人机完成人类的指定任务。该方法利用深度学习和强化学习技术,通过从人类示范中提取关键状态和行为模式,构建适应动态环境变化的决策模型。所述决策模型采用一种基于演示的注意力机制深度学习网络架构,使得无人机能够在复杂环境中自主学习并优化自身行为,以适应未预见的情况。该方法通过将单视演示学习(OSIL)融入上下文驱动的元强化学习框架中,使得无人机在面对新任务和环境变化时,能够迅速调整策略,提高任务完成的准确性和效率。本发明所提出的方法在处理动态环境中的突发变化方面表现优越,具有广泛的应用前景。