基于音频驱动的图像处理方法、设备和存储介质

发明公开

CN117974850A 基于音频驱动的图像处理方法、设备和存储介质有权

请登陆查看更多内容

专利标题： 基于音频驱动的图像处理方法、设备和存储介质
申请号： CN202410388315.1

申请日： 2024-04-01
公开(公告)号： CN117974850A

公开(公告)日： 2024-05-03
发明人: 张森乐 , 康波 , 庞晓磊 , 吴玲 , 孟祥飞 , 刘腾萧 , 李长松 , 蒋博为
申请人： 国家超级计算天津中心
申请人地址： 天津市滨海新区经济技术开发区信环西路19号5号楼5102
专利权人： 国家超级计算天津中心
当前专利权人： 国家超级计算天津中心
当前专利权人地址： 天津市滨海新区经济技术开发区信环西路19号5号楼5102
代理机构： 北京驰明知识产权代理有限公司
代理商 武玉维
主分类号： G06T13/20
IPC分类号： G06T13/20 ; G06N3/0464 ; G06N3/0499 ; G06N3/08 ; G06T13/40 ; G06T13/80 ; G06N3/048

摘要：

本发明涉及图像处理领域，公开了一种基于音频驱动的图像处理方法、设备和存储介质，该方法包括：获取初始图像序列以及初始音频；其中，初始图像序列中的嘴部区域的变化与初始音频不对应；将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中，输出与初始音频对应的目标图像序列；其中，嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到，嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块，目标图像序列中的嘴部区域的变化与初始音频相对应。通过本发明的技术方案，能够提高嘴型变化的连续性以及自然性，提高图像序列和音频的同步性，提高图像序列的清晰度。

公开/授权文献

CN117974850B 基于音频驱动的图像处理方法、设备和存储介质公开/授权日：2024-06-14

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06T	一般的图像数据处理或产生
G06T13/00	动画制作
G06T13/20	.3D〔三维〕动画