一种由双编码器组成的transformer的重庆方言语音识别方法

发明授权

CN116416968B 一种由双编码器组成的transformer的重庆方言语音识别方法有权

请登陆查看更多内容

专利标题： 一种由双编码器组成的transformer的重庆方言语音识别方法
申请号： CN202111656134.5

申请日： 2021-12-30
公开(公告)号： CN116416968B

公开(公告)日： 2024-09-24
发明人: 张美伟 , 余娟 , 吕洋 , 李文沅 , 余维华 , 王香霖
申请人： 重庆大学 , 重庆医科大学
申请人地址： 重庆市沙坪坝区沙正街174号;
专利权人： 重庆大学,重庆医科大学
当前专利权人： 重庆大学,重庆医科大学
当前专利权人地址： 重庆市沙坪坝区沙正街174号;
代理机构： 重庆缙云专利代理事务所
代理商 王翔
主分类号： G10L15/00
IPC分类号： G10L15/00 ; G10L15/16 ; G10L15/22 ; G10L15/26 ; G10L19/02 ; G10L19/16

摘要：

本发明公开一种由双编码器组成的transformer的重庆方言语音识别方法，包括以下步骤：1)获取语音数据；2)对语音数据进行傅里叶转换，得到语音频谱图；3)得到向量V；4)获取transformer模型的输入X；5)得到参数Q、参数K、参数V；6)将参数Q、参数K、参数V输入到transformer模型的编码器encoder1和编码器encoder2中，分别得到编码器输出Y1和编码器输出Y2；7)将编码器输出Y1输入到Gate CNN网络中，得到语音识别文本概率分布p1；将编码器输出Y2输入到transformer模型的解码器中，得到语音识别文本概率分布p2；8)计算得到语音识别文本P。本发明设计了两个不同的解码器分别对两个dropout输出做解码，进一步增加了整个解码结构的鲁棒性。

公开/授权文献

CN116416968A 一种由双编码器组成的transformer的重庆方言语音识别方法公开/授权日：2023-07-11

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）