-
公开(公告)号:CN117099157A
公开(公告)日:2023-11-21
申请号:CN202180096393.9
申请日:2021-12-11
申请人: 谷歌有限责任公司
IPC分类号: G10L15/16
摘要: 一种方法(500)包括接收与话语(12)的转录(204)对应的语音识别结果(222)。对于所述语音识别结果的假设子词单元的序列中的每个子词单元,所述方法还包括:当对应的子词单元从第一语音识别器(200)输出时,获得与对应的输出步骤相关联的相应置信度嵌入(242);生成置信度特征向量(312);生成声学场境向量(322);以及基于由所述置信度估计模块的所述输出层作为输入接收的所述置信度特征向量和所述声学场境向量,生成所述对应的子词单元的相应置信度输出得分(302)。所述方法还包括:基于为所述假设子词单元的序列中的每个子词单元生成的所述相应置信度输出得分,确定所述话语的所述转录的话语级置信度得分(350)。
-
公开(公告)号:CN116888662A
公开(公告)日:2023-10-13
申请号:CN202280015500.5
申请日:2022-02-23
申请人: 谷歌有限责任公司
IPC分类号: G10L15/16
摘要: 方法(500)包括接收语音识别结果(232),并且使用置信度估计模块(CEM)(300),对于语音识别结果的假设子词单元序列中的每个子词单元:获得相应置信度嵌入(242);使用第一注意力机制(310)生成置信度特征向量(312);使用第二注意力机制(320)生成声学上下文向量(332);以及生成每个对应子词单元的相应置信度输出分数(302),作为来自CEM的输出层(340)的输出。对于由假设子词单元序列形成的一个或多个词中的每一个,该方法还包括确定词的相应词级置信度分数。该方法还包括通过聚合词级置信度分数来确定话语级置信度分数(350)。
-