专利检索 ap:("西安电子科技大学昆山创新研究院" OR "昆山完全时刻数字科技有限公司") AND inv:"刘媛婧" 第 1 页

1.

发明公开
一种基于可解译深度学习的语音识别方法审中-实审

公开(公告)号：CN118314882A

公开(公告)日：2024-07-09

申请号：CN202410576433.5

申请日：2024-05-10

申请人： 西安电子科技大学昆山创新研究院 , 昆山完全时刻数字科技有限公司

发明人： 朱明哲 , 谈超 , 刘媛婧 , 陈治瀚

IPC分类号： G10L15/16 , G10L15/06

摘要： 本发明公开了一种基于可解译深度学习的语音识别方法，S1，截获语音通信时域信号，进行短时傅里叶变换预处理得到语音信号变换域特征图；S2，构建卷积神经网络模型，使用LeNet‑5作为分类器；S3，将语音信号变换特征图V作为卷积神经网络输入；S4，将Vtr和Ltr输入构建的卷积神经网络network1，用前向和反向传播训练网络，使用的损失函数为交叉熵损失函数，获得训练后的网络network1；S5，计算网络network1分类结果，生成特征图S1；S6,将语音信号特征图S1作为新特征输入卷积神经网络network2，进行第二次训练并识别分类，计算识别率。本发明提供了一种基于可解译深度学习的语音识别方法，可以极大地加强语音信号的轻微类内差异，得到更高的识别精度，并提供解释神经卷积网络的可能性。