- 专利标题: 一种利用非平行语料提升语音识别系统性能的方法
-
申请号: CN202410495685.5申请日: 2024-04-24
-
公开(公告)号: CN118098216A公开(公告)日: 2024-05-28
- 发明人: 严宇平 , 阮伟聪 , 林嘉鑫 , 林浩 , 邵彦宁 , 卫潮冰 , 陈泽鸿 , 胡波 , 吴文远 , 吴石松
- 申请人: 广东电网有限责任公司
- 申请人地址: 广东省广州市越秀区东风东路757号
- 专利权人: 广东电网有限责任公司
- 当前专利权人: 广东电网有限责任公司
- 当前专利权人地址: 广东省广州市越秀区东风东路757号
- 代理机构: 深圳天融专利代理事务所
- 代理商 杜英
- 主分类号: G10L15/06
- IPC分类号: G10L15/06
摘要:
本发明公开了一种利用非平行语料提升语音识别系统性能的方法,涉及语音识别技术领域,步骤包括:收集包含大量语音和文本的非平行语料,这些语料获取来源包括互联网、社交媒体、广播节目等,建立非平行资源库;基于无标注语音预训练编码器;基于非平行文本库训练语音识别解码器;将训练得到的模型进行融合,实现编码器、解码器联合微调,在解码器的输入端增加一定能量的噪声,并在其输出端的标注的标签上增加了一定比例语言模型的软标签,且噪声与软标签的比例会随训练的迭代数逐渐降低,随着训练迭代数的增加,解码器逐渐转换为一个给定音频表征的语音识别器;将模型应用到语音识别系统,最终提升语音识别系统的性能。
公开/授权文献
- CN118098216B 一种利用非平行语料提升语音识别系统性能的方法 公开/授权日:2024-07-09