-
公开(公告)号:CN116670757A
公开(公告)日:2023-08-29
申请号:CN202180071737.0
申请日:2021-05-01
申请人: 谷歌有限责任公司
IPC分类号: G10L15/16
摘要: 自动语音识别(ASR)模型(200)包括第一编码器(210)、第二编码器(220)和解码器(204)。所述第一编码器接收一系列声帧(110)作为输入,并且在多个输出步中的每个输出步生成对应声帧的第一高阶特征表示(203)。所述第二编码器接收由所述第一编码器在所述多个输出步中的每个输出步生成的第一高阶特征表示作为输入,并且在所述多个输出步中的每个输出步生成对应的第一高阶特征帧的第二高阶特征表示(205)。所述解码器接收由所述第二编码器在所述多个输出步中的每个输出步生成的第二高阶特征表示作为输入,并且在多个时步中的每个时步生成可能的语音识别假设上的第一概率分布。
-
公开(公告)号:CN117795597A
公开(公告)日:2024-03-29
申请号:CN202180101523.3
申请日:2021-12-14
申请人: 谷歌有限责任公司
IPC分类号: G10L21/0208
摘要: 一种用于使用联合声学回声消除、语音增强和语音分离的自动语音辨识的方法(600),包括:在上下文前端处理模型(200)处,接收与目标话语(12)相对应的输入语音特征(212)。方法还包括在上下文前端处理模型处,接收以下中的至少一个:参考音频信号(154)、包括目标话语之前的噪声的上下文噪声信号(213)或者包括说出目标话语的目标说话者(10)的话音特性的说话者嵌入(215)。方法还包括使用上下文前端处理模型,处理参考音频信号、上下文噪声信号或说话者嵌入向量中的至少一个以及输入语音特征,以生成增强语音特征(250)。
-
公开(公告)号:CN114981884A
公开(公告)日:2022-08-30
申请号:CN202180009937.3
申请日:2021-01-21
申请人: 谷歌有限责任公司
摘要: 一种方法(300)包括:接收两遍流送神经网络模型(200)的倾听‑注意‑拼写(LAS)解码器(230)的训练示例(203),以及确定该训练示例是对应于监督的音频‑文本对还是不成对的文本序列。当训练示例对应于不成对的文本序列时,该方法还包括基于与训练示例的语言上下文向量(246)相关联的对数概率来确定交叉熵损失。该方法还包括基于所确定的交叉熵损失来更新LAS解码器和语言上下文向量。
-
公开(公告)号:CN114097025A
公开(公告)日:2022-02-25
申请号:CN202080040823.0
申请日:2020-06-03
申请人: 谷歌有限责任公司
发明人: 塔拉·C·赛纳特 , 庞若鸣 , 戴维·雷巴赫 , 何彦璋 , 罗希特·普拉巴瓦尔卡尔 , 李炜 , 米可·维森泰 , 梁桥 , 特雷弗·施特勒曼 , 吴永辉 , 伊恩·C·麦格劳 , 邱中镇
摘要: 两遍自动语音识别(ASR)模型能够被用于执行流传输设备上ASR以生成在音频数据中捕获的话语的文本表示。各种实施方式包括ASR模型的用于生成在音频数据中捕获的话语的(多个)流传输候选识别的第一遍部分。例如,第一遍部分能够包括循环神经网络变换器(RNN‑T)解码器。各种实施方式包括ASR模型的用于修订话语的流传输候选识别并且生成话语的文本表示的第二遍部分。例如,第二遍部分能够包括听参加拼写(LAS)解码器。各种实施方式包括在RNN‑T解码器与LAS解码器之间共享的共享编码器。
-
公开(公告)号:CN117242516A
公开(公告)日:2023-12-15
申请号:CN202280029820.6
申请日:2022-04-20
申请人: 谷歌有限责任公司
IPC分类号: G10L15/06
摘要: 一种用于训练流式传输自动语音识别(ASR)学生模型(152)的方法(400)包括接收多个未标记的学生训练话语(220)。该方法还包括,对于每个未标记的学生训练话语,使用多个非流式传输ASR教师模型(210)生成与相应的未标记的学生训练话语相对应的转录(212)。该方法进一步包括通过使用与多个非流式传输ASR教师模型生成的对应转录配对的多个未标记的学生训练话语来训练流式传输ASR学生模型,从多个非流式传输ASR教师模型中提取流式传输ASR学生模型。
-
公开(公告)号:CN116848579A
公开(公告)日:2023-10-03
申请号:CN202180071433.4
申请日:2021-09-09
申请人: 谷歌有限责任公司
IPC分类号: G10L15/06
摘要: 一种训练流式语音识别模型(200)的计算机实现的方法(400),包括接收声学帧(122)的序列作为流式语音识别模型的输入。流式语音识别模型被配置为学习声学帧的序列和词汇令牌(204)的输出序列之间的对准概率(206)。词汇令牌包括多个标签令牌和空白令牌。在每个输出步长从,方法包括确定发射标签令牌中的一个的第一概率(264)和确定发射空白令牌的第二概率(266)。方法还包括基于第一概率和第二概率来在序列级生成对准概率。方法还包括将调谐参数(282)应用于在序列级的对准概率,以使发射标签令牌中的一个的第一概率最大化。
-
公开(公告)号:CN115803806A
公开(公告)日:2023-03-14
申请号:CN202180046025.3
申请日:2021-10-01
申请人: 谷歌有限责任公司
IPC分类号: G10L15/16
摘要: 本公开的系统和方法涉及一种计算系统,所述计算系统包括一个或多个处理器和机器学习多模式言语识别模型,所述机器学习多模式言语识别模型被配置为在流式识别模式或上下文识别模式下操作。所述计算系统可以进行操作,所述操作包括:获得言语数据和真实值标签;以及使用所述上下文识别模式来处理所述言语数据以获得上下文预测数据。所述操作可以包括:评估所述上下文预测数据与所述真实值标签之间的差异;以及使用所述流式识别模式来处理所述言语数据以获得流式预测数据。所述操作可以包括:评估所述流式预测数据与所述真实值标签以及所述上下文和流式预测数据之间的差异。所述操作可以包括:调整所述言语识别模型的参数。
-
-
-
-
-
-