一种利用非平行语料提升语音识别系统性能的方法

发明公开

CN118098216A 一种利用非平行语料提升语音识别系统性能的方法有权

请登陆查看更多内容

专利标题： 一种利用非平行语料提升语音识别系统性能的方法
申请号： CN202410495685.5

申请日： 2024-04-24
公开(公告)号： CN118098216A

公开(公告)日： 2024-05-28
发明人: 严宇平 , 阮伟聪 , 林嘉鑫 , 林浩 , 邵彦宁 , 卫潮冰 , 陈泽鸿 , 胡波 , 吴文远 , 吴石松
申请人： 广东电网有限责任公司
申请人地址： 广东省广州市越秀区东风东路757号
专利权人： 广东电网有限责任公司
当前专利权人： 广东电网有限责任公司
当前专利权人地址： 广东省广州市越秀区东风东路757号
代理机构： 深圳天融专利代理事务所
代理商 杜英
主分类号： G10L15/06
IPC分类号： G10L15/06

摘要：

本发明公开了一种利用非平行语料提升语音识别系统性能的方法，涉及语音识别技术领域，步骤包括：收集包含大量语音和文本的非平行语料，这些语料获取来源包括互联网、社交媒体、广播节目等，建立非平行资源库；基于无标注语音预训练编码器；基于非平行文本库训练语音识别解码器；将训练得到的模型进行融合，实现编码器、解码器联合微调，在解码器的输入端增加一定能量的噪声，并在其输出端的标注的标签上增加了一定比例语言模型的软标签，且噪声与软标签的比例会随训练的迭代数逐渐降低，随着训练迭代数的增加，解码器逐渐转换为一个给定音频表征的语音识别器；将模型应用到语音识别系统，最终提升语音识别系统的性能。

公开/授权文献

CN118098216B 一种利用非平行语料提升语音识别系统性能的方法公开/授权日：2024-07-09

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/06	.创建基准模板；训练语音识别系统，例如对说话者声音特征的适应（G10L15/14优先）