- 专利标题: 基于音频驱动的图像处理方法、设备和存储介质
-
申请号: CN202410388315.1申请日: 2024-04-01
-
公开(公告)号: CN117974850A公开(公告)日: 2024-05-03
- 发明人: 张森乐 , 康波 , 庞晓磊 , 吴玲 , 孟祥飞 , 刘腾萧 , 李长松 , 蒋博为
- 申请人: 国家超级计算天津中心
- 申请人地址: 天津市滨海新区经济技术开发区信环西路19号5号楼5102
- 专利权人: 国家超级计算天津中心
- 当前专利权人: 国家超级计算天津中心
- 当前专利权人地址: 天津市滨海新区经济技术开发区信环西路19号5号楼5102
- 代理机构: 北京驰明知识产权代理有限公司
- 代理商 武玉维
- 主分类号: G06T13/20
- IPC分类号: G06T13/20 ; G06N3/0464 ; G06N3/0499 ; G06N3/08 ; G06T13/40 ; G06T13/80 ; G06N3/048
摘要:
本发明涉及图像处理领域,公开了一种基于音频驱动的图像处理方法、设备和存储介质,该方法包括:获取初始图像序列以及初始音频;其中,初始图像序列中的嘴部区域的变化与初始音频不对应;将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中,输出与初始音频对应的目标图像序列;其中,嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到,嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块,目标图像序列中的嘴部区域的变化与初始音频相对应。通过本发明的技术方案,能够提高嘴型变化的连续性以及自然性,提高图像序列和音频的同步性,提高图像序列的清晰度。
公开/授权文献
- CN117974850B 基于音频驱动的图像处理方法、设备和存储介质 公开/授权日:2024-06-14