- 专利标题: 一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法
-
申请号: CN202410688412.2申请日: 2024-05-30
-
公开(公告)号: CN118612509A公开(公告)日: 2024-09-06
- 发明人: 董林伟 , 魏宁 , 余昕遥 , 邹常青 , 赵志峰
- 申请人: 之江实验室
- 申请人地址: 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 专利权人: 之江实验室
- 当前专利权人: 之江实验室
- 当前专利权人地址: 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 代理机构: 杭州求是专利事务所有限公司
- 代理商 刘静
- 主分类号: H04N21/44
- IPC分类号: H04N21/44 ; H04N21/431 ; H04N21/488
摘要:
本发明公开了一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法,包括:用于对原视频和图像数据进行文本字幕消除和低质量图像筛选过滤的视频图像预处理模块,用于向开源预训练的文本做引导的视频生成扩散模型内注入实体位置的条件信息的文本、实体位置控制的视频生成扩散模型训练微调模块,用于调整视频生成模型的噪声初始化的文本、实体位置控制的视频生成扩散模型优化模块,文本、实体位置控制的视频生成扩散模型推理加速模块和文本、实体位置控制的视频生成扩散模型编辑调整模块。本发明能够解决模型生成质量差、生成效率低、模态信息单一和未充分挖掘扩散模型生成过程中特征间联系的技术问题。