-
公开(公告)号:CN114097025A
公开(公告)日:2022-02-25
申请号:CN202080040823.0
申请日:2020-06-03
申请人: 谷歌有限责任公司
发明人: 塔拉·C·赛纳特 , 庞若鸣 , 戴维·雷巴赫 , 何彦璋 , 罗希特·普拉巴瓦尔卡尔 , 李炜 , 米可·维森泰 , 梁桥 , 特雷弗·施特勒曼 , 吴永辉 , 伊恩·C·麦格劳 , 邱中镇
摘要: 两遍自动语音识别(ASR)模型能够被用于执行流传输设备上ASR以生成在音频数据中捕获的话语的文本表示。各种实施方式包括ASR模型的用于生成在音频数据中捕获的话语的(多个)流传输候选识别的第一遍部分。例如,第一遍部分能够包括循环神经网络变换器(RNN‑T)解码器。各种实施方式包括ASR模型的用于修订话语的流传输候选识别并且生成话语的文本表示的第二遍部分。例如,第二遍部分能够包括听参加拼写(LAS)解码器。各种实施方式包括在RNN‑T解码器与LAS解码器之间共享的共享编码器。