一种端到端语音识别方法、系统及存储介质

发明授权

请登陆查看更多内容

专利标题： 一种端到端语音识别方法、系统及存储介质
申请号： CN202210202455.6

申请日： 2022-03-03
公开(公告)号： CN114596839B

公开(公告)日： 2024-06-07
发明人: 王丹 , 陶高峰 , 邢凯 , 陈力 , 孙仕康 , 黄超 , 侯晓晖 , 孙羽 , 朱静 , 夏丹丹 , 罗永璨
申请人： 网络通信与安全紫金山实验室
申请人地址： 江苏省南京市江宁区秣周东路9号
专利权人： 网络通信与安全紫金山实验室
当前专利权人： 网络通信与安全紫金山实验室
当前专利权人地址： 江苏省南京市江宁区秣周东路9号
代理机构： 江苏圣典律师事务所
代理商 贺翔
主分类号： G10L15/02
IPC分类号： G10L15/02 ; G10L15/06 ; G10L19/16 ; G06N3/0442 ; G06N3/0464 ; G06N3/08

摘要：

本发明提供一种端到端语音识别方法及系统，包括：基于VGGNet模型使用源语料库训练初始语音特征提取模型；移除所述初始语音特征提取模型中的全连接层并冻结预设数量的卷积层参数，使用目标语料库对经过移除和冻结后的初始语音特征提取模型进行训练，得到频域特征提取网络；构建端到端语音识别框架，所述框架包括编码器和解码器；使用目标语料库训练所述端到端语音识别框架，并基于训练好的端到端语音识别框架进行端到端语音识别。本发明可以有效解决数据受限情况下的模型过拟合问题，同时提高了语音识别的正确率且具有很好的噪声鲁棒性。

公开/授权文献

CN114596839A 一种端到端语音识别方法、系统及存储介质公开/授权日：2022-06-07

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/02	.语音识别的特征提取；识别单位的选择