一种基于端到端语音识别模型和语言模型的融合方法

发明公开

CN114596843A 一种基于端到端语音识别模型和语言模型的融合方法审中-实审

请登陆查看更多内容

专利标题： 一种基于端到端语音识别模型和语言模型的融合方法
申请号： CN202210242872.3

申请日： 2022-03-11
公开(公告)号： CN114596843A

公开(公告)日： 2022-06-07
发明人: 柳宇非 , 张伟彬 , 邢晓芬 , 徐向民
申请人： 华南理工大学
申请人地址： 广东省广州市天河区五山路381号
专利权人： 华南理工大学
当前专利权人： 华南理工大学
当前专利权人地址： 广东省广州市天河区五山路381号
代理机构： 广州粤高专利商标代理有限公司
代理商 周春丽
主分类号： G10L15/06
IPC分类号： G10L15/06 ; G10L15/183 ; G10L15/26 ; G10L19/16

摘要：

本发明属于端到端语音识别技术领域，公开了一种基于端到端语音识别模型和语言模型的融合方法，包括以下步骤:S1、使用语音和文本对训练端到端的语音识别模型，并且使用文本数据训练一个外部语言模型；S2、将训练好的所述语音识别模型的解码器部分单独取出并形成独立的模型；S3、用训练数据到文本单独训练所述独立的模型并在收敛后得到内部语言模型的估计模型；S4、对所述语音识别模型、所述外部语言模型和所述内部语言模型的估计模型的分数融合进行解码以得到解码结果。这种算法能提高语音识别模型与语言模型融合后识别的准确率，在语音识别领域有着广泛的应用前景。

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/06	.创建基准模板；训练语音识别系统，例如对说话者声音特征的适应（G10L15/14优先）