-
公开(公告)号:CN118678159A
公开(公告)日:2024-09-20
申请号:CN202410688397.1
申请日:2024-05-30
申请人: 之江实验室
IPC分类号: H04N21/472 , H04N21/44 , G06T5/50 , G06T5/60 , G06T5/70 , G06V20/40 , G06V10/26 , G06V10/62 , G06V10/80 , G06V10/75 , G06V10/82 , G06N3/0455
摘要: 本发明公开了一种基于掩码的视频局部物体编辑方法及装置,该方法包括:首先对视频分割成帧,得到图像序列;在第一帧中选取并优化目标物体的掩码,利用模板匹配和预训练的图像分割模型追踪并优化后续帧中的物体掩码;通过预训练的SD模型对第一帧进行编码并引入高斯噪声;根据给定文本描述,使用SD模型去噪并生成编辑后的图像;最后,通过迭代处理和解码过程完成整帧图像的编辑,并在处理后续帧时融合前几帧的编辑结果和注意力信息。由于该方法将视频编辑建立在图像编辑的基础之上,可以利用现有预训练文本图像模型的能力,不需要重新训练模型。此外在处理后续每一帧时都融合了前几帧的注意力信息,保证了编辑后视频的连续性。
-
公开(公告)号:CN118675010A
公开(公告)日:2024-09-20
申请号:CN202410688413.7
申请日:2024-05-30
申请人: 之江实验室
IPC分类号: G06V10/774 , G06V10/82 , G06V20/40 , G06N3/0475 , G06N3/096 , H04N21/44 , H04N21/81
摘要: 本发明公开了一种基于可微渲染器的视频生成大模型的数据集生成方法、系统及装置,所述方法包括:3D资产管理,获取场景构建所需的3D资产及模型,以及对应词汇描述;场景结构生成,基于场景的文本描述生成场景结构树;3D场景构建,构建场景的布局,结合3D资产生成3D场景;场景优化,在多个视角下进行可微渲染,利用稳定扩散模型和分数蒸馏采样损失进行场景优化;视频渲染,在3D场景中生成动态相机轨迹,渲染生成视频;视频重描述,基于视频基础模型生成关于生成视频的描述,作为视频的标签,构建数据集。本发明不仅能为各种应用提供必要的训练数据集,还能显著提高内容创建的效率和质量,有利于推动相关行业的技术进步和发展。
-
公开(公告)号:CN118612525A
公开(公告)日:2024-09-06
申请号:CN202410688392.9
申请日:2024-05-30
申请人: 之江实验室
IPC分类号: H04N21/854 , G06N3/0455 , G06N3/0464 , G06N3/047 , G06N3/0475 , G06N3/096 , G06V20/40 , G06V20/70 , G06V10/26 , G06V10/28 , G06F18/25
摘要: 本发明公开了一种文本引导的单目标物体轨迹掩码视频生成方法及系统,包括:对视频数据样本进行标注并获取二值化轨迹掩码视频;对经过图像重建任务预训练的变分自编码器进行微调,使用微调后的变分自编码器将二值化轨迹掩码视频编码为隐空间特征序列,构建训练样本对;构建并训练基于Transformer编码器的单目标物体轨迹掩码扩散生成网络;利用训练好的扩散生成网络生成新的文本提示对应的目标物体二值化轨迹掩码视频。本发明能够有效地根据文本提示生成精确的目标物体轨迹掩码,为单目标可控轨迹的视频生成提供有效先验信息,提高生成视频中目标物体的运动一致性。
-
-