发明公开
- 专利标题: 文本引导的单目标物体轨迹掩码视频生成方法及系统
-
申请号: CN202410688392.9申请日: 2024-05-30
-
公开(公告)号: CN118612525A公开(公告)日: 2024-09-06
- 发明人: 郭羿宏 , 邹常青 , 凌泽宇 , 赵志峰
- 申请人: 之江实验室
- 申请人地址: 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 专利权人: 之江实验室
- 当前专利权人: 之江实验室
- 当前专利权人地址: 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 代理机构: 杭州求是专利事务所有限公司
- 代理商 刘静
- 主分类号: H04N21/854
- IPC分类号: H04N21/854 ; G06N3/0455 ; G06N3/0464 ; G06N3/047 ; G06N3/0475 ; G06N3/096 ; G06V20/40 ; G06V20/70 ; G06V10/26 ; G06V10/28 ; G06F18/25
摘要:
本发明公开了一种文本引导的单目标物体轨迹掩码视频生成方法及系统,包括:对视频数据样本进行标注并获取二值化轨迹掩码视频;对经过图像重建任务预训练的变分自编码器进行微调,使用微调后的变分自编码器将二值化轨迹掩码视频编码为隐空间特征序列,构建训练样本对;构建并训练基于Transformer编码器的单目标物体轨迹掩码扩散生成网络;利用训练好的扩散生成网络生成新的文本提示对应的目标物体二值化轨迹掩码视频。本发明能够有效地根据文本提示生成精确的目标物体轨迹掩码,为单目标可控轨迹的视频生成提供有效先验信息,提高生成视频中目标物体的运动一致性。