一种基于大模型的展厅机器人视觉语言导航方法

    公开(公告)号:CN119309580A

    公开(公告)日:2025-01-14

    申请号:CN202411341616.5

    申请日:2024-09-25

    Abstract: 一种基于大模型的展厅机器人视觉语言导航方法,属于展厅机器人领域,本发明为解决现有展厅机器人存在的问题。本发明方法:展厅机器人多模态场景感知系统:感知当前场景,利用RGB图像和激光点云的融合特征获得候选目标物体;提取场景中所有候选目标物体的图像特征;展厅机器人多模态环境理解系统:展厅机器人接受语音指令,并利用视觉语言多模态大模型理解出目标物体及用户意图,然后从系统中提取该目标物体文本的高维语义特征,从候选目标物体中找出目标物体;基于多模态大模型的展厅机器人智能导航系统:展厅机器人按照意图生成的位姿序列进行路径规划与自主移动,并根据展厅机器人多模态场景感知系统提供的实时变化的场景动态调整自身行为。

Patent Agency Ranking