一种基于深度学习的音频生成人脸图像方法
Abstract:
本发明提供一种基于深度学习的音频生成人脸图像方法,包括几何结构预测器(ψ)和人脸生成器几何结构预测器(ψ)输入音频、头部姿态和眼部状态,分别经过 和 提取对应特征fA、fP和fB,然后由 回归得到目标身份面部landmark向量(l),从而实现音频到landmark几何空间的映射;人脸生成器 输入目标身份参考图像(Ir)、目标身份面部landmark图像(L)分别经 提取图像特征后由 进一步进行特征融合,得到目标身份对应表情图像(It)。本发明方法基于Py-Torch深度学习框架,先对音频进行特征提取并回归人脸的landmark,然后使用对抗生成模型设计思想将landmark与目标生成身份参考图像融合,以生成与音频相应的高质量真实人脸目标身份图像。
Patent Agency Ranking
0/0