-
公开(公告)号:CN116888662A
公开(公告)日:2023-10-13
申请号:CN202280015500.5
申请日:2022-02-23
申请人: 谷歌有限责任公司
IPC分类号: G10L15/16
摘要: 方法(500)包括接收语音识别结果(232),并且使用置信度估计模块(CEM)(300),对于语音识别结果的假设子词单元序列中的每个子词单元:获得相应置信度嵌入(242);使用第一注意力机制(310)生成置信度特征向量(312);使用第二注意力机制(320)生成声学上下文向量(332);以及生成每个对应子词单元的相应置信度输出分数(302),作为来自CEM的输出层(340)的输出。对于由假设子词单元序列形成的一个或多个词中的每一个,该方法还包括确定词的相应词级置信度分数。该方法还包括通过聚合词级置信度分数来确定话语级置信度分数(350)。
-
公开(公告)号:CN114270434A
公开(公告)日:2022-04-01
申请号:CN202080040756.2
申请日:2020-12-03
申请人: 谷歌有限责任公司
摘要: 两遍自动语音识别(ASR)模型能够被用于执行流传输设备上ASR以生成在音频数据中捕获的话语的文本表示。各种实施方式包括ASR模型的用于生成在音频数据中捕获的话语的(多个)流传输候选识别的第一遍部分。例如,该第一遍部分能够包括循环神经网络变换器(RNN‑T)解码器。各种实施方式包括ASR模型的用于修订话语的(多个)流传输候选识别并且生成话语的文本表示的第二遍部分。例如,该第二遍部分能够包括听参加拼写(LAS)解码器。各种实施方式包括在RNN‑T解码器与LAS解码器之间共享的共享编码器。
-
公开(公告)号:CN114097025A
公开(公告)日:2022-02-25
申请号:CN202080040823.0
申请日:2020-06-03
申请人: 谷歌有限责任公司
发明人: 塔拉·C·赛纳特 , 庞若鸣 , 戴维·雷巴赫 , 何彦璋 , 罗希特·普拉巴瓦尔卡尔 , 李炜 , 米可·维森泰 , 梁桥 , 特雷弗·施特勒曼 , 吴永辉 , 伊恩·C·麦格劳 , 邱中镇
摘要: 两遍自动语音识别(ASR)模型能够被用于执行流传输设备上ASR以生成在音频数据中捕获的话语的文本表示。各种实施方式包括ASR模型的用于生成在音频数据中捕获的话语的(多个)流传输候选识别的第一遍部分。例如,第一遍部分能够包括循环神经网络变换器(RNN‑T)解码器。各种实施方式包括ASR模型的用于修订话语的流传输候选识别并且生成话语的文本表示的第二遍部分。例如,第二遍部分能够包括听参加拼写(LAS)解码器。各种实施方式包括在RNN‑T解码器与LAS解码器之间共享的共享编码器。
-
公开(公告)号:CN112166350A
公开(公告)日:2021-01-01
申请号:CN201880093672.8
申请日:2018-08-30
申请人: 谷歌有限责任公司
摘要: 本文描述的各种实施例包括用于在电子设备上进行超声感测的方法、设备和系统。在一个方面,在具有存储器、一个或多个处理器、扬声器和麦克风的电子设备上执行一种方法。该方法包括,当经由扬声器和麦克风与用户可听地通信时:(1)经由扬声器发送一个或多个超声脉冲;(2)经由麦克风接收与一个或多个超声脉冲相对应的一个或多个信号;(3)基于一个或多个接收到的信号确定用户的定位;以及(4)基于所确定的定位调整扬声器和/或麦克风的一个或多个参数。
-
公开(公告)号:CN112166350B
公开(公告)日:2023-12-05
申请号:CN201880093672.8
申请日:2018-08-30
申请人: 谷歌有限责任公司
摘要: 本文描述的各种实施例包括用于在电子设备上进行超声感测的方法、设备和系统。在一个方面,在具有存储器、一个或多个处理器、扬声器和麦克风的电子设备上执行一种方法。该方法包括,当经由扬声器和麦克风与用户可听地通信时:(1)经由扬声器发送一个或多个超声脉冲;应的一个或多个信号;(3)基于一个或多个接收到的信号确定用户的定位;以及(4)基于所确定的定位调整扬声器和/或麦克风的一个或多个参数。(2)经由麦克风接收与一个或多个超声脉冲相对
-
-
-
-