面向视觉语言导航的多粒度指令生成方法及装置

    公开(公告)号:CN119598394A

    公开(公告)日:2025-03-11

    申请号:CN202411640044.0

    申请日:2024-11-18

    Inventor: 蔡毅 司徒润威

    Abstract: 本发明公开了一种面向视觉语言导航的多粒度指令生成方法及装置,方法包括:提取粗粒度的全景图像特征与动作特征,细粒度的区域特征与网格特征;采用Bi‑LSTM和注意力机制对全局特征进行编码与融合,得到粗粒度的轨迹表征;设计基于时间约束的空间自注意力,时间自注意力以及基于时间和局部约束的交叉注意力,对局部特征进行编码与融合,得到细粒度的轨迹表征;融合粗粒度与细粒度的表征,生成多粒度的轨迹表征;通过LSTM‑RNN进行解码,合成导航指令;合成的指令和采样得到的轨迹组成增强的数据,用于训练导航智能体。本发明从数据增强的角度出发、合成高质量的自然语言导航指令,并提升智能体的泛化能力,提供了一种创新且实用的解决方案。

Patent Agency Ranking