-
公开(公告)号:CN113841195B
公开(公告)日:2023-12-22
申请号:CN202080036368.7
申请日:2020-03-04
申请人: 谷歌有限责任公司
摘要: 一种方法(800),包括接收话语(120)的音频数据(120)并且处理该音频数据以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型(140)的输出的:该话语的部分语音识别结果;以及指示该话语何时已经结束的端点指示(175)。在处理该音频数据的同时,该方法还包括基于该端点指示来检测该话语的结尾。响应于检测到该话语的结尾,该方法还包括终止对在检测到该话语的结尾之后接收到的任何后续音频数据的处理。
-
公开(公告)号:CN116848579A
公开(公告)日:2023-10-03
申请号:CN202180071433.4
申请日:2021-09-09
申请人: 谷歌有限责任公司
IPC分类号: G10L15/06
摘要: 一种训练流式语音识别模型(200)的计算机实现的方法(400),包括接收声学帧(122)的序列作为流式语音识别模型的输入。流式语音识别模型被配置为学习声学帧的序列和词汇令牌(204)的输出序列之间的对准概率(206)。词汇令牌包括多个标签令牌和空白令牌。在每个输出步长从,方法包括确定发射标签令牌中的一个的第一概率(264)和确定发射空白令牌的第二概率(266)。方法还包括基于第一概率和第二概率来在序列级生成对准概率。方法还包括将调谐参数(282)应用于在序列级的对准概率,以使发射标签令牌中的一个的第一概率最大化。
-
公开(公告)号:CN118369713A
公开(公告)日:2024-07-19
申请号:CN202280081019.6
申请日:2022-09-22
申请人: 谷歌有限责任公司
IPC分类号: G10L15/16
摘要: 方法(500)包括接收表征一个或多个话语(106)的声音帧(110)的序列作为对多语言自动语音识别(ASR)模型(200)的输入。该方法还包括为对应的声音帧生成较高阶特征表示(204)。该方法还包括基于由最终softmax层(240)输出的非空白符号(222)的序列来生成隐藏表示(355)。该方法还包括基于隐藏表示和较高阶特征表示而在可能的语音识别假设上生成概率分布。该方法还包括预测在每个话语的结尾处的话语结尾(EOU)令牌(232)。该方法还包括将每个声音帧分类为语音、初始静音、中间静音或最终静音。
-
公开(公告)号:CN118339608A
公开(公告)日:2024-07-12
申请号:CN202280079817.5
申请日:2022-08-19
申请人: 谷歌有限责任公司
摘要: 一种语音识别模型包括编码器网络(220),预测网络(230)和联合网络(210)。编码器网络被配置为接收表征输入话语的声学帧(222)的序列;并且在多个输出步骤中的每一个输出步骤生成对应声学帧的高阶特征表示(224)。预测网络被配置为:接收由最终Softmax层(240)输出的非空白符号(242)的序列;并且在多个输出步骤中的每一个输出步骤生成密集表示(232)。联合网络(210)被配置为基于高阶特征表示和密集表示在多个输出步骤中的每一个输出步骤生成可能的语音识别假设的概率分布(212)。联合网络包括门控(260)和双线性池(250)的堆叠,以融合密集表示和高阶特征表示。
-
公开(公告)号:CN114270434A
公开(公告)日:2022-04-01
申请号:CN202080040756.2
申请日:2020-12-03
申请人: 谷歌有限责任公司
摘要: 两遍自动语音识别(ASR)模型能够被用于执行流传输设备上ASR以生成在音频数据中捕获的话语的文本表示。各种实施方式包括ASR模型的用于生成在音频数据中捕获的话语的(多个)流传输候选识别的第一遍部分。例如,该第一遍部分能够包括循环神经网络变换器(RNN‑T)解码器。各种实施方式包括ASR模型的用于修订话语的(多个)流传输候选识别并且生成话语的文本表示的第二遍部分。例如,该第二遍部分能够包括听参加拼写(LAS)解码器。各种实施方式包括在RNN‑T解码器与LAS解码器之间共享的共享编码器。
-
公开(公告)号:CN118435274A
公开(公告)日:2024-08-02
申请号:CN202280079816.0
申请日:2022-09-21
申请人: 谷歌有限责任公司
发明人: 沙恩·贾迪普·帕特里克·白约迪亚 , 塔拉·N·萨纳特 , 余家华 , 张硕英 , 何彦璋
摘要: 一种方法(500)包括接收与由用户设备(10)捕获的话语(106)对应的输入音频帧(110)的序列,话语包括多个单词。对于每个输入音频帧,该方法包括使用被配置为接收输入音频帧的序列作为输入的单词边界检测模型(210)来预测输入音频帧是否是单词边界。该方法包括基于被预测为单词边界的输入音频帧,将输入音频帧批处理为多个批(222),其中每个批包括对应的多个被批处理的输入音频帧。对于多个批中的每一个,该方法包括使用语音识别模型(230)并行地处理对应的多个被批处理的输入音频帧,以生成语音识别结果(120)。
-
公开(公告)号:CN118202404A
公开(公告)日:2024-06-14
申请号:CN202280073377.2
申请日:2022-08-26
申请人: 谷歌有限责任公司
摘要: 一种方法(500)包括:接收表征一个或多个话语(106)的声学帧序列(110)。在多个时间步中的每一个时间步处,该方法还包括:由语音识别模型(200)的编码器网络(220)生成声学帧序列中的对应声学帧的高阶特征表示(224);由语音识别模型的预测网络(300)生成对应非空白符号序列(252)的隐藏表示(350),该对应非空白符号序列(252)由语音识别模型的最终softmax层(250)输出;以及由语音识别模型的第一联合网络(210)生成对应时间步对应于停顿和语音结束的概率分布,该第一联合网络(210)接收由编码器网络生成的高阶特征表示和由预测网络生成的稠密表示。
-
公开(公告)号:CN113841195A
公开(公告)日:2021-12-24
申请号:CN202080036368.7
申请日:2020-03-04
申请人: 谷歌有限责任公司
摘要: 一种方法(800),包括接收话语(120)的音频数据(120)并且处理该音频数据以获得作为来自被配置为联合执行话语的语音解码和端点确定的语音识别模型(140)的输出的:该话语的部分语音识别结果;以及指示该话语何时已经结束的端点指示(175)。在处理该音频数据的同时,该方法还包括基于该端点指示来检测该话语的结尾。响应于检测到该话语的结尾,该方法还包括终止对在检测到该话语的结尾之后接收到的任何后续音频数据的处理。
-
-
-
-
-
-
-