基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统
摘要:
本申请公开了一种基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统,涉及图像处理应用技术领域。方法包括:通过LSTM、CNN、FCN三部分神经网络构建预测模型框架;收集发声动作视频,并对所述发声动作视频进行取帧;将取帧处理后的部分数据文件用于所述预测模型框架的参数调整,导出预测模型;所述预测模型输入面部动作,输出该面部动作的语义信息,通过结合LSTM和CNN两种深度神经网络,处理捕捉到的人物发声过程面部动作的视频,通过结合视频的语义标签,以及计算机视觉技术对视频数据特征学习的能力,并且经过深度神经网络的训练优化模型,最终得到具有高精度预测能力的发声语义预测模型。
0/0