发明公开
- 专利标题: 基于视觉语言大模型的机器人操纵方法
-
申请号: CN202410784930.4申请日: 2024-06-18
-
公开(公告)号: CN118559711A公开(公告)日: 2024-08-30
- 发明人: 高亚斌 , 尚瀚军 , 陈艺翔 , 匡冀源 , 齐弼卿 , 刘健行 , 孙光辉 , 吴立刚
- 申请人: 哈尔滨工业大学
- 申请人地址: 黑龙江省哈尔滨市南岗区西大直街92号
- 专利权人: 哈尔滨工业大学
- 当前专利权人: 哈尔滨工业大学
- 当前专利权人地址: 黑龙江省哈尔滨市南岗区西大直街92号
- 代理机构: 哈尔滨市松花江联合专利商标代理有限公司
- 代理商 杨晓辉
- 主分类号: B25J9/16
- IPC分类号: B25J9/16
摘要:
基于视觉语言大模型的机器人操纵方法,本发明涉及人工智能和具身智能领域,具体涉及基于视觉语言大模型的机器人操纵方法。本发明的目的是为了解决现有机器人理解指令及视觉环境后执行的操纵任务完成准确率低的问题。过程为:将语言指令文本和深度相机捕获的RGBD图像输入视觉语言大模型;视觉语言大模型的PC机输出三维位置坐标、三维旋转位姿和机械爪的开闭状态;视觉语言大模型机械臂上Jetson Nano端通过ROS接收三维位置坐标、三维旋转位姿和机械爪的开闭状态;对接收到的三维位置坐标、三维旋转位姿和机械爪的开闭状态信息进行逆运动学解算,将解算后的各关节角度输入舵机,对舵机进行PID控制完成机械臂的动作。