专利检索 ap:("浙江大学") AND inv:"刘自得" 第 1 页

1.

发明公开
一种基于扩散模型的零样本视频编辑方法审中-实审

公开(公告)号：CN118037569A

公开(公告)日：2024-05-14

申请号：CN202410015580.5

申请日：2024-01-04

申请人： 浙江大学

发明人： 刘自得

IPC分类号： G06T5/60 , G06T5/50 , G06V10/44 , G06V10/82 , G06V10/80 , G06N3/045 , G06N3/0475

摘要： 本发明公开了一种基于扩散模型的零样本视频编辑方法，该方法中将待编辑视频经过扩散模型中的自编码器进行编码得到初始值并将该初始值通过空文本反演得到其所对应的初始噪声以及空文本特征；将所述扩散模型中的自注意力模块的前向替换为包括ST时序模块和SC时序模块的时序注意力模块，并修改所述扩散模型中的交叉注意力层的前向过程，以使得交叉注意力层能够得到原始文本描述特征与当前图像计算得到的每个token所对应的注意力图；将所述空文本特征分别与所述原始描述特征、目标文本描述特征按照Batch维度拼接，将拼接得到的特征分别送入扩散模型中，基于所述初始噪声进行视频的生成，并基于所述位置序列得到编辑后的视频。

2.

发明公开
一种基于多参考自注意力机制的多概念组合定制图像生成方法和装置审中-实审

公开(公告)号：CN118674828A

公开(公告)日：2024-09-20

申请号：CN202410631985.1

申请日：2024-05-21

申请人： 浙江大学

发明人： 沈春华 , 丁港归 , 赵灿宇 , 陈昊 , 王文 , 杨震 , 刘自得

IPC分类号： G06T11/60 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06T5/70 , G06T5/60

摘要： 本发明公开了一种基于多参考自注意力机制的多概念组合定制图像生成方法和装置，属于计算机视觉技术领域，包括：获取图像组的隐向量和加权掩膜，隐向量前向加噪得到带噪隐向量；将带噪隐向量和高斯噪声隐向量以及各自对应的文本描述符同步输入U‑Net反向去噪，分别以带噪隐向量和高斯噪声隐向量的降噪过程作为概念参考路径和概念组合路径；将概念参考路径的键值对特征与概念组合路径的键值对特征组合，采用加权掩膜策略并执行多参考自注意力机制，得到目标图像。本发明能够迅速生成与输入概念高度一致的高质量多概念组合定制图像，无需繁琐的模型参数调整或训练过程，尤其在处理多样化概念类别时表现出卓越的灵活性和鲁棒性。