一种基于可解译深度学习的语音识别方法

    公开(公告)号:CN118314882A

    公开(公告)日:2024-07-09

    申请号:CN202410576433.5

    申请日:2024-05-10

    IPC分类号: G10L15/16 G10L15/06

    摘要: 本发明公开了一种基于可解译深度学习的语音识别方法,S1,截获语音通信时域信号,进行短时傅里叶变换预处理得到语音信号变换域特征图;S2,构建卷积神经网络模型,使用LeNet‑5作为分类器;S3,将语音信号变换特征图V作为卷积神经网络输入;S4,将Vtr和Ltr输入构建的卷积神经网络network1,用前向和反向传播训练网络,使用的损失函数为交叉熵损失函数,获得训练后的网络network1;S5,计算网络network1分类结果,生成特征图S1;S6,将语音信号特征图S1作为新特征输入卷积神经网络network2,进行第二次训练并识别分类,计算识别率。本发明提供了一种基于可解译深度学习的语音识别方法,可以极大地加强语音信号的轻微类内差异,得到更高的识别精度,并提供解释神经卷积网络的可能性。