一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法
摘要:
本发明公开了一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法,包括:用于对原视频和图像数据进行文本字幕消除和低质量图像筛选过滤的视频图像预处理模块,用于向开源预训练的文本做引导的视频生成扩散模型内注入实体位置的条件信息的文本、实体位置控制的视频生成扩散模型训练微调模块,用于调整视频生成模型的噪声初始化的文本、实体位置控制的视频生成扩散模型优化模块,文本、实体位置控制的视频生成扩散模型推理加速模块和文本、实体位置控制的视频生成扩散模型编辑调整模块。本发明能够解决模型生成质量差、生成效率低、模态信息单一和未充分挖掘扩散模型生成过程中特征间联系的技术问题。
0/0