一种基于掩码的视频局部物体编辑方法及装置

    公开(公告)号:CN118678159A

    公开(公告)日:2024-09-20

    申请号:CN202410688397.1

    申请日:2024-05-30

    申请人: 之江实验室

    摘要: 本发明公开了一种基于掩码的视频局部物体编辑方法及装置,该方法包括:首先对视频分割成帧,得到图像序列;在第一帧中选取并优化目标物体的掩码,利用模板匹配和预训练的图像分割模型追踪并优化后续帧中的物体掩码;通过预训练的SD模型对第一帧进行编码并引入高斯噪声;根据给定文本描述,使用SD模型去噪并生成编辑后的图像;最后,通过迭代处理和解码过程完成整帧图像的编辑,并在处理后续帧时融合前几帧的编辑结果和注意力信息。由于该方法将视频编辑建立在图像编辑的基础之上,可以利用现有预训练文本图像模型的能力,不需要重新训练模型。此外在处理后续每一帧时都融合了前几帧的注意力信息,保证了编辑后视频的连续性。

    一种基于可微渲染器的视频生成大模型的数据集生成方法、系统及装置

    公开(公告)号:CN118675010A

    公开(公告)日:2024-09-20

    申请号:CN202410688413.7

    申请日:2024-05-30

    申请人: 之江实验室

    摘要: 本发明公开了一种基于可微渲染器的视频生成大模型的数据集生成方法、系统及装置,所述方法包括:3D资产管理,获取场景构建所需的3D资产及模型,以及对应词汇描述;场景结构生成,基于场景的文本描述生成场景结构树;3D场景构建,构建场景的布局,结合3D资产生成3D场景;场景优化,在多个视角下进行可微渲染,利用稳定扩散模型和分数蒸馏采样损失进行场景优化;视频渲染,在3D场景中生成动态相机轨迹,渲染生成视频;视频重描述,基于视频基础模型生成关于生成视频的描述,作为视频的标签,构建数据集。本发明不仅能为各种应用提供必要的训练数据集,还能显著提高内容创建的效率和质量,有利于推动相关行业的技术进步和发展。