一种语音驱动人脸关键点序列生成方法及装置

发明公开

请登陆查看更多内容

专利标题： 一种语音驱动人脸关键点序列生成方法及装置
申请号： CN202211108862.7

申请日： 2022-09-13
公开(公告)号： CN115187705A

公开(公告)日： 2022-10-14
发明人: 李融 , 梁森 , 陈奕铮
申请人： 之江实验室
申请人地址： 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼
专利权人： 之江实验室
当前专利权人： 之江实验室
当前专利权人地址： 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼
代理机构： 杭州求是专利事务所有限公司
代理商 邱启旺
主分类号： G06T13/20
IPC分类号： G06T13/20 ; G06T13/40 ; G06N3/04 ; G06N3/08

摘要：

本发明公开了一种语音驱动人脸关键点序列生成方法及装置，该方法首先构建一个用于训练的数据集和一个基于标准流模型的语音驱动人脸关键点序列生成模型，该模型将随机采样的高斯噪声作为输入，并将语音序列作为条件输入多个标准流模块中，其中每个模块通过条件时空卷积神经网络将语音序列融合进行融合，最后输出人脸关键点序列；其次，构建损失函数进行模型训练直至收敛，得到最佳模型参数的训练模型；最后利用训练好的模型进行模型推断，对任意输入的语音生成说话人表情关键点序列。本发明通过该方法能够生成高质量且动作自然的人脸关键点序列，解决计算机动画和虚拟人领域，基于语音驱动人脸关键点序列缺少多样性问题。

公开/授权文献

CN115187705B 一种语音驱动人脸关键点序列生成方法及装置公开/授权日：2023-01-24

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06T	一般的图像数据处理或产生
G06T13/00	动画制作
G06T13/20	.3D〔三维〕动画