基于视觉语言大模型的机器人操纵方法
摘要:
基于视觉语言大模型的机器人操纵方法,本发明涉及人工智能和具身智能领域,具体涉及基于视觉语言大模型的机器人操纵方法。本发明的目的是为了解决现有机器人理解指令及视觉环境后执行的操纵任务完成准确率低的问题。过程为:将语言指令文本和深度相机捕获的RGBD图像输入视觉语言大模型;视觉语言大模型的PC机输出三维位置坐标、三维旋转位姿和机械爪的开闭状态;视觉语言大模型机械臂上Jetson Nano端通过ROS接收三维位置坐标、三维旋转位姿和机械爪的开闭状态;对接收到的三维位置坐标、三维旋转位姿和机械爪的开闭状态信息进行逆运动学解算,将解算后的各关节角度输入舵机,对舵机进行PID控制完成机械臂的动作。
0/0