-
公开(公告)号:CN118612525A
公开(公告)日:2024-09-06
申请号:CN202410688392.9
申请日:2024-05-30
Applicant: 之江实验室
IPC: H04N21/854 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/0475 , G06N3/096 , G06V20/40 , G06V20/70 , G06V10/26 , G06V10/28 , G06F18/25
Abstract: 本发明公开了一种文本引导的单目标物体轨迹掩码视频生成方法及系统,包括:对视频数据样本进行标注并获取二值化轨迹掩码视频;对经过图像重建任务预训练的变分自编码器进行微调,使用微调后的变分自编码器将二值化轨迹掩码视频编码为隐空间特征序列,构建训练样本对;构建并训练基于Transformer编码器的单目标物体轨迹掩码扩散生成网络;利用训练好的扩散生成网络生成新的文本提示对应的目标物体二值化轨迹掩码视频。本发明能够有效地根据文本提示生成精确的目标物体轨迹掩码,为单目标可控轨迹的视频生成提供有效先验信息,提高生成视频中目标物体的运动一致性。