一种从人类演示中提取操作技能信息并构建知识库的方法
摘要:
本发明公开了一种从人类演示中提取操作技能信息并构建知识库的方法,包括获取人类演示RGB视频,通过动作分割模块得到人类演示中的操作技能序列以及每个操作技能在演示视频中的起止帧,对每个操作技能在演示视频中的起止帧进行物体相对位置关系识别,获取物体相对位置关系等步骤,本发明将演示学习与人类指令相结合,利用大语言模型的解析能力,实现了从人类指令到机器人操作技能序列的生成。这种方法突破了以往演示学习主要依赖视觉信息的局限,将文本指令、语音指令等多元输入与视觉演示同步整合,以丰富机器人理解任务和环境的能力。
0/0