一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法

发明公开

CN118612509A 一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法审中-实审

请登陆查看更多内容

专利标题： 一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法
申请号： CN202410688412.2

申请日： 2024-05-30
公开(公告)号： CN118612509A

公开(公告)日： 2024-09-06
发明人: 董林伟 , 魏宁 , 余昕遥 , 邹常青 , 赵志峰
申请人： 之江实验室
申请人地址： 浙江省杭州市余杭区中泰街道科创大道之江实验室
专利权人： 之江实验室
当前专利权人： 之江实验室
当前专利权人地址： 浙江省杭州市余杭区中泰街道科创大道之江实验室
代理机构： 杭州求是专利事务所有限公司
代理商 刘静
主分类号： H04N21/44
IPC分类号： H04N21/44 ; H04N21/431 ; H04N21/488

摘要：

本发明公开了一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法，包括：用于对原视频和图像数据进行文本字幕消除和低质量图像筛选过滤的视频图像预处理模块，用于向开源预训练的文本做引导的视频生成扩散模型内注入实体位置的条件信息的文本、实体位置控制的视频生成扩散模型训练微调模块，用于调整视频生成模型的噪声初始化的文本、实体位置控制的视频生成扩散模型优化模块，文本、实体位置控制的视频生成扩散模型推理加速模块和文本、实体位置控制的视频生成扩散模型编辑调整模块。本发明能够解决模型生成质量差、生成效率低、模态信息单一和未充分挖掘扩散模型生成过程中特征间联系的技术问题。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

H	电学
H04	电通信技术
H04N	图像通信，如电视
H04N21/00	可选的内容分发，例如交互式电视,或视频点播[VOD]（运动视频数据的实时双向传输入H04N7/14）
H04N21/40	.专门适用于接收内容或者与内容交互的客户端设备，如STB〔机顶盒〕；相关操作
H04N21/43	..内容或者附加数据的处理，例如解复用来自数字视频流的附加数据；基本客户端操作，例如：本地网络的监控或者译码器时钟的同步；客户端中间件
H04N21/44	...视频基本流的处理，例如：将从本地存储器获得的视频剪辑与输入视频流进行拼接，或者按照MPEG-4场景图呈现场景