-
公开(公告)号:CN118828135A
公开(公告)日:2024-10-22
申请号:CN202410847349.2
申请日:2024-06-27
申请人: 浙江大学
IPC分类号: H04N21/81 , H04N21/44 , G06V20/40 , G06V10/40 , G06V20/70 , G06V40/16 , G06N3/0455 , G06N3/08 , G06N20/00
摘要: 本发明公开了一种基于多模态大模型的长视觉序列生成方法及装置。该方法包括:获取训练用的多模态剧本数据;渲染器的训练和优化;自回归模型的训练;故事的生成。该装置包括:获取模块,用于得到训练用的多模态剧本数据;渲染器训练优化模块;自回归模型训练模块;生成模块。本发明能同时做到长故事与长视频的生成,不仅在视觉质量和叙事质量上取得了优越的表现,而且有效地将生成内容的持续时间显著延长。
-
公开(公告)号:CN118674828A
公开(公告)日:2024-09-20
申请号:CN202410631985.1
申请日:2024-05-21
申请人: 浙江大学
IPC分类号: G06T11/60 , G06N3/0464 , G06N3/0455 , G06N3/084 , G06T5/70 , G06T5/60
摘要: 本发明公开了一种基于多参考自注意力机制的多概念组合定制图像生成方法和装置,属于计算机视觉技术领域,包括:获取图像组的隐向量和加权掩膜,隐向量前向加噪得到带噪隐向量;将带噪隐向量和高斯噪声隐向量以及各自对应的文本描述符同步输入U‑Net反向去噪,分别以带噪隐向量和高斯噪声隐向量的降噪过程作为概念参考路径和概念组合路径;将概念参考路径的键值对特征与概念组合路径的键值对特征组合,采用加权掩膜策略并执行多参考自注意力机制,得到目标图像。本发明能够迅速生成与输入概念高度一致的高质量多概念组合定制图像,无需繁琐的模型参数调整或训练过程,尤其在处理多样化概念类别时表现出卓越的灵活性和鲁棒性。
-