一种基于文本生成视频机器人视觉人机交互方法及系统

    公开(公告)号:CN113051420B

    公开(公告)日:2022-07-05

    申请号:CN202110405742.2

    申请日:2021-04-15

    申请人: 山东大学

    摘要: 本发明公开了一种基于文本生成视频的机器人视觉人机交互方法及系统,包括:获取待识别的文本信息和源图像;根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。本发明将检索与生成模型相结合,提出一种新的基于文本生成视频的方法,用于机器人视觉人机交互,该方法在生成视频的在语义相关性、多样性以及图像真实性方面具有更好的效果,能够提升机器人的视觉交互能力。

    一种基于文本生成视频机器人视觉人机交互方法及系统

    公开(公告)号:CN113051420A

    公开(公告)日:2021-06-29

    申请号:CN202110405742.2

    申请日:2021-04-15

    申请人: 山东大学

    IPC分类号: G06F16/58 G06T17/20 G06K9/00

    摘要: 本发明公开了一种基于文本生成视频的机器人视觉人机交互方法及系统,包括:获取待识别的文本信息和源图像;根据文本信息检索动作数据库,选择匹配度最高的动作图像序列;基于源图像生成模型场景信息,结合匹配得到的参考动作图像序列,基于文本生成视频任务的网络模型,生成满足语义信息并含有源图像场景信息的视频/图像序列。本发明将检索与生成模型相结合,提出一种新的基于文本生成视频的方法,用于机器人视觉人机交互,该方法在生成视频的在语义相关性、多样性以及图像真实性方面具有更好的效果,能够提升机器人的视觉交互能力。