一种基于深度学习的音频生成人脸图像方法

Invention Publication

CN111797897A 一种基于深度学习的音频生成人脸图像方法无效 - 驳回

Please log in to see more content

Patent Title: 一种基于深度学习的音频生成人脸图像方法
Application No.: CN202010494445.5

Application Date: 2020-06-03
Publication No.: CN111797897A

Publication Date: 2020-10-20
Inventor: 刘勇 , 张江宁
Applicant: 浙江大学
Applicant Address: 浙江省杭州市西湖区余杭塘路866号
Assignee: 浙江大学
Current Assignee: 浙江大学
Current Assignee Address: 浙江省杭州市西湖区余杭塘路866号
Agency: 浙江翔隆专利事务所
Agent 叶卫强
Main IPC: G06K9/62
IPC: G06K9/62 ; G06K9/00 ; G06N3/04 ; G06N3/08

Abstract:

本发明提供一种基于深度学习的音频生成人脸图像方法，包括几何结构预测器(ψ)和人脸生成器几何结构预测器(ψ)输入音频、头部姿态和眼部状态，分别经过和提取对应特征fA、fP和fB，然后由回归得到目标身份面部landmark向量(l)，从而实现音频到landmark几何空间的映射；人脸生成器输入目标身份参考图像(Ir)、目标身份面部landmark图像(L)分别经提取图像特征后由进一步进行特征融合，得到目标身份对应表情图像(It)。本发明方法基于Py-Torch深度学习框架，先对音频进行特征提取并回归人脸的landmark，然后使用对抗生成模型设计思想将landmark与目标生成身份参考图像融合，以生成与音频相应的高质量真实人脸目标身份图像。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06K	图形数据读取（图像或视频识别或理解G06V）；数据的呈现；记录载体；处理记录载体
G06K9/00	识别模式的方法或装置（图形读取或将机械参数模式（例如力或存在）转换为电信号的方法或装置 G06K11/00）（图像或视频识别或理解 G06V）（语音识别 G10L15/00 )
G06K9/62	.应用电子设备进行识别的方法或装置