发明公开
- 专利标题: 基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统
-
申请号: CN202310375002.8申请日: 2023-04-10
-
公开(公告)号: CN116343096A公开(公告)日: 2023-06-27
- 发明人: 程远 , 朱俊 , 何庆
- 申请人: 西南交通大学
- 申请人地址: 四川省成都市金牛区二环路北一段111号
- 专利权人: 西南交通大学
- 当前专利权人: 西南交通大学
- 当前专利权人地址: 四川省成都市金牛区二环路北一段111号
- 代理机构: 成都海成知识产权代理事务所
- 代理商 庞启成
- 主分类号: G06V20/40
- IPC分类号: G06V20/40 ; G06V40/16 ; G06V40/20 ; G06V10/82 ; G06N3/0464 ; G06N3/0442
摘要:
本申请公开了一种基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统,涉及图像处理应用技术领域。方法包括:通过LSTM、CNN、FCN三部分神经网络构建预测模型框架;收集发声动作视频,并对所述发声动作视频进行取帧;将取帧处理后的部分数据文件用于所述预测模型框架的参数调整,导出预测模型;所述预测模型输入面部动作,输出该面部动作的语义信息,通过结合LSTM和CNN两种深度神经网络,处理捕捉到的人物发声过程面部动作的视频,通过结合视频的语义标签,以及计算机视觉技术对视频数据特征学习的能力,并且经过深度神经网络的训练优化模型,最终得到具有高精度预测能力的发声语义预测模型。