- 专利标题: 一种由双编码器组成的transformer的重庆方言语音识别方法
-
申请号: CN202111656134.5申请日: 2021-12-30
-
公开(公告)号: CN116416968B公开(公告)日: 2024-09-24
- 发明人: 张美伟 , 余娟 , 吕洋 , 李文沅 , 余维华 , 王香霖
- 申请人: 重庆大学 , 重庆医科大学
- 申请人地址: 重庆市沙坪坝区沙正街174号;
- 专利权人: 重庆大学,重庆医科大学
- 当前专利权人: 重庆大学,重庆医科大学
- 当前专利权人地址: 重庆市沙坪坝区沙正街174号;
- 代理机构: 重庆缙云专利代理事务所
- 代理商 王翔
- 主分类号: G10L15/00
- IPC分类号: G10L15/00 ; G10L15/16 ; G10L15/22 ; G10L15/26 ; G10L19/02 ; G10L19/16
摘要:
本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法,包括以下步骤:1)获取语音数据;2)对语音数据进行傅里叶转换,得到语音频谱图;3)得到向量V;4)获取transformer模型的输入X;5)得到参数Q、参数K、参数V;6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中,分别得到编码器输出Y1和编码器输出Y2;7)将编码器输出Y1输入到Gate CNN网络中,得到语音识别文本概率分布p1;将编码器输出Y2输入到transformer模型的解码器中,得到语音识别文本概率分布p2;8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码,进一步增加了整个解码结构的鲁棒性。
公开/授权文献
- CN116416968A 一种由双编码器组成的transformer的重庆方言语音识别方法 公开/授权日:2023-07-11