基于语音驱动数字人模型的视频生成方法及系统

Invention Grant

CN115914505B 基于语音驱动数字人模型的视频生成方法及系统有权

Please log in to see more content

Patent Title: 基于语音驱动数字人模型的视频生成方法及系统
Application No.: CN202310018537.X

Application Date: 2023-01-06
Publication No.: CN115914505B

Publication Date: 2023-07-14
Inventor: 刘云飞 , 李昱 , 周昌印 , 余飞
Applicant: 粤港澳大湾区数字经济研究院(福田) , 杭州盖视科技有限公司
Applicant Address: 广东省深圳市福田区福保街道市花路长富金茂大厦1号楼39楼3901单元;
Assignee: 粤港澳大湾区数字经济研究院(福田),杭州盖视科技有限公司
Current Assignee: 粤港澳大湾区数字经济研究院(福田),杭州盖视科技有限公司
Current Assignee Address: 广东省深圳市福田区福保街道市花路长富金茂大厦1号楼39楼3901单元;
Agency: 深圳市君胜知识产权代理事务所
Agent 温宏梅
Main IPC: H04N5/265
IPC: H04N5/265 ; G06V40/16 ; G06V10/82 ; G06N3/08

Abstract:

本发明公开了一种基于语音驱动数字人模型的视频生成方法及系统，方法包括：获取驱动对象的驱动语音、权限验证信息及被驱动对象；权限验证信息满足被驱动对象的权限验证条件时获取被驱动对象的数字人模型和参考图像；根据数字人模型获取被驱动对象对应的面部特征，根据驱动语音和面部特征获取多组人像参数，根据人像参数和面部特征生成多个人像表征向量；获取各人像表征向量的时序位置编码，根据参考图像、各人像表征向量以及各时序位置编码，通过已训练的神经网络生成器生成各人像表征向量对应的一帧被驱动图像，并生成被驱动视频，被驱动视频中被驱动对象的嘴部动作与驱动语音匹配。本发明有利于提高语音驱动的视频的生成效果和展示效果。

Public/Granted literature

CN115914505A 基于语音驱动数字人模型的视频生成方法及系统 Public/Granted day:2023-04-04

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

H	电学
H04	电通信技术
H04N	图像通信，如电视
H04N5/00	电视系统的零部件（扫描部件或其与供电电压产生的组合入H04N3/00）
H04N5/222	.电视演播室线路；电视演播室装置；电视演播室设备
H04N5/262	..电视演播室线路，例如用于混合、开关、转换、改变图像特性及其他特殊效果
H04N5/265	...混合