基于语音驱动数字人模型的视频生成方法及系统
Abstract:
本发明公开了一种基于语音驱动数字人模型的视频生成方法及系统,方法包括:获取驱动对象的驱动语音、权限验证信息及被驱动对象;权限验证信息满足被驱动对象的权限验证条件时获取被驱动对象的数字人模型和参考图像;根据数字人模型获取被驱动对象对应的面部特征,根据驱动语音和面部特征获取多组人像参数,根据人像参数和面部特征生成多个人像表征向量;获取各人像表征向量的时序位置编码,根据参考图像、各人像表征向量以及各时序位置编码,通过已训练的神经网络生成器生成各人像表征向量对应的一帧被驱动图像,并生成被驱动视频,被驱动视频中被驱动对象的嘴部动作与驱动语音匹配。本发明有利于提高语音驱动的视频的生成效果和展示效果。
Public/Granted literature
Patent Agency Ranking
0/0