两遍端到端语音识别
摘要:
两遍自动语音识别(ASR)模型能够被用于执行流传输设备上ASR以生成在音频数据中捕获的话语的文本表示。各种实施方式包括ASR模型的用于生成在音频数据中捕获的话语的(多个)流传输候选识别的第一遍部分。例如,该第一遍部分能够包括循环神经网络变换器(RNN‑T)解码器。各种实施方式包括ASR模型的用于修订话语的(多个)流传输候选识别并且生成话语的文本表示的第二遍部分。例如,该第二遍部分能够包括听参加拼写(LAS)解码器。各种实施方式包括在RNN‑T解码器与LAS解码器之间共享的共享编码器。
0/0