实施为RNN-T的自动语音识别系统中的声学表示和文本表示的融合

    公开(公告)号:CN118339608A

    公开(公告)日:2024-07-12

    申请号:CN202280079817.5

    申请日:2022-08-19

    IPC分类号: G10L15/06 G10L15/16

    摘要: 一种语音识别模型包括编码器网络(220),预测网络(230)和联合网络(210)。编码器网络被配置为接收表征输入话语的声学帧(222)的序列;并且在多个输出步骤中的每一个输出步骤生成对应声学帧的高阶特征表示(224)。预测网络被配置为:接收由最终Softmax层(240)输出的非空白符号(242)的序列;并且在多个输出步骤中的每一个输出步骤生成密集表示(232)。联合网络(210)被配置为基于高阶特征表示和密集表示在多个输出步骤中的每一个输出步骤生成可能的语音识别假设的概率分布(212)。联合网络包括门控(260)和双线性池(250)的堆叠,以融合密集表示和高阶特征表示。

    两遍端到端语音识别
    5.
    发明公开

    公开(公告)号:CN114270434A

    公开(公告)日:2022-04-01

    申请号:CN202080040756.2

    申请日:2020-12-03

    摘要: 两遍自动语音识别(ASR)模型能够被用于执行流传输设备上ASR以生成在音频数据中捕获的话语的文本表示。各种实施方式包括ASR模型的用于生成在音频数据中捕获的话语的(多个)流传输候选识别的第一遍部分。例如,该第一遍部分能够包括循环神经网络变换器(RNN‑T)解码器。各种实施方式包括ASR模型的用于修订话语的(多个)流传输候选识别并且生成话语的文本表示的第二遍部分。例如,该第二遍部分能够包括听参加拼写(LAS)解码器。各种实施方式包括在RNN‑T解码器与LAS解码器之间共享的共享编码器。

    用于自然谈话话音系统的不流畅检测模型

    公开(公告)号:CN118202404A

    公开(公告)日:2024-06-14

    申请号:CN202280073377.2

    申请日:2022-08-26

    摘要: 一种方法(500)包括:接收表征一个或多个话语(106)的声学帧序列(110)。在多个时间步中的每一个时间步处,该方法还包括:由语音识别模型(200)的编码器网络(220)生成声学帧序列中的对应声学帧的高阶特征表示(224);由语音识别模型的预测网络(300)生成对应非空白符号序列(252)的隐藏表示(350),该对应非空白符号序列(252)由语音识别模型的最终softmax层(250)输出;以及由语音识别模型的第一联合网络(210)生成对应时间步对应于停顿和语音结束的概率分布,该第一联合网络(210)接收由编码器网络生成的高阶特征表示和由预测网络生成的稠密表示。