基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统

发明公开

CN116343096A 基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统审中-实审

请登陆查看更多内容

专利标题： 基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统
申请号： CN202310375002.8

申请日： 2023-04-10
公开(公告)号： CN116343096A

公开(公告)日： 2023-06-27
发明人: 程远 , 朱俊 , 何庆
申请人： 西南交通大学
申请人地址： 四川省成都市金牛区二环路北一段111号
专利权人： 西南交通大学
当前专利权人： 西南交通大学
当前专利权人地址： 四川省成都市金牛区二环路北一段111号
代理机构： 成都海成知识产权代理事务所
代理商 庞启成
主分类号： G06V20/40
IPC分类号： G06V20/40 ; G06V40/16 ; G06V40/20 ; G06V10/82 ; G06N3/0464 ; G06N3/0442

摘要：

本申请公开了一种基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统，涉及图像处理应用技术领域。方法包括：通过LSTM、CNN、FCN三部分神经网络构建预测模型框架；收集发声动作视频，并对所述发声动作视频进行取帧；将取帧处理后的部分数据文件用于所述预测模型框架的参数调整，导出预测模型；所述预测模型输入面部动作，输出该面部动作的语义信息，通过结合LSTM和CNN两种深度神经网络，处理捕捉到的人物发声过程面部动作的视频，通过结合视频的语义标签，以及计算机视觉技术对视频数据特征学习的能力，并且经过深度神经网络的训练优化模型，最终得到具有高精度预测能力的发声语义预测模型。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）