一种基于扩散模型的零样本视频编辑方法

    公开(公告)号:CN118037569A

    公开(公告)日:2024-05-14

    申请号:CN202410015580.5

    申请日:2024-01-04

    申请人: 浙江大学

    发明人: 刘自得

    摘要: 本发明公开了一种基于扩散模型的零样本视频编辑方法,该方法中将待编辑视频经过扩散模型中的自编码器进行编码得到初始值并将该初始值通过空文本反演得到其所对应的初始噪声以及空文本特征;将所述扩散模型中的自注意力模块的前向替换为包括ST时序模块和SC时序模块的时序注意力模块,并修改所述扩散模型中的交叉注意力层的前向过程,以使得交叉注意力层能够得到原始文本描述特征与当前图像计算得到的每个token所对应的注意力图;将所述空文本特征分别与所述原始描述特征、目标文本描述特征按照Batch维度拼接,将拼接得到的特征分别送入扩散模型中,基于所述初始噪声进行视频的生成,并基于所述位置序列得到编辑后的视频。

    一种基于多参考自注意力机制的多概念组合定制图像生成方法和装置

    公开(公告)号:CN118674828A

    公开(公告)日:2024-09-20

    申请号:CN202410631985.1

    申请日:2024-05-21

    申请人: 浙江大学

    摘要: 本发明公开了一种基于多参考自注意力机制的多概念组合定制图像生成方法和装置,属于计算机视觉技术领域,包括:获取图像组的隐向量和加权掩膜,隐向量前向加噪得到带噪隐向量;将带噪隐向量和高斯噪声隐向量以及各自对应的文本描述符同步输入U‑Net反向去噪,分别以带噪隐向量和高斯噪声隐向量的降噪过程作为概念参考路径和概念组合路径;将概念参考路径的键值对特征与概念组合路径的键值对特征组合,采用加权掩膜策略并执行多参考自注意力机制,得到目标图像。本发明能够迅速生成与输入概念高度一致的高质量多概念组合定制图像,无需繁琐的模型参数调整或训练过程,尤其在处理多样化概念类别时表现出卓越的灵活性和鲁棒性。