一种基于上下文适应器和偏置损失的语音识别方法及系统

发明公开

CN118711571A 一种基于上下文适应器和偏置损失的语音识别方法及系统审中-实审

请登陆查看更多内容

专利标题： 一种基于上下文适应器和偏置损失的语音识别方法及系统
申请号： CN202410762066.8

申请日： 2024-06-13
公开(公告)号： CN118711571A

公开(公告)日： 2024-09-27
发明人: 沈晓兵 , 周齐辉 , 吕力行 , 王小荣 , 王国清 , 徐拓 , 王芸 , 郭可均
申请人： 浙江浙能电力股份有限公司萧山发电厂
申请人地址： 浙江省杭州市萧山区临浦镇
专利权人： 浙江浙能电力股份有限公司萧山发电厂
当前专利权人： 浙江浙能电力股份有限公司萧山发电厂
当前专利权人地址： 浙江省杭州市萧山区临浦镇
代理机构： 浙江翔隆专利事务所
代理商 张建青
主分类号： G10L15/06
IPC分类号： G10L15/06 ; G10L15/183 ; G10L15/16 ; G10L15/26

摘要：

本发明公开了一种基于上下文适应器和偏置损失的语音识别方法及系统。针对现有方法面对偏置词表较大时无法正确选择偏置词的问题，本发明采用的技术方案为：利用大规模语音数据进行预训练，基于Transducer结构构建一个基础语音识别模型；将偏置短语输入上下文适应器编码为偏置向量；将偏置向量与基础语音识别模型的编码输出相加，输入联合网络以完成最终的预测，得到最终的预测文本；对含有偏置短语的数据进行偏置学习，对最终的预测文本进行Transducer学习，利用偏置学习损失和Transducer学习损失对上下文适应器进行微调。本发明引入上下文适应器与偏置损失函数，提高了语音识别模型对于不常见短语的识别准确性。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/06	.创建基准模板；训练语音识别系统，例如对说话者声音特征的适应（G10L15/14优先）