-
公开(公告)号:CN118435274A
公开(公告)日:2024-08-02
申请号:CN202280079816.0
申请日:2022-09-21
申请人: 谷歌有限责任公司
发明人: 沙恩·贾迪普·帕特里克·白约迪亚 , 塔拉·N·萨纳特 , 余家华 , 张硕英 , 何彦璋
摘要: 一种方法(500)包括接收与由用户设备(10)捕获的话语(106)对应的输入音频帧(110)的序列,话语包括多个单词。对于每个输入音频帧,该方法包括使用被配置为接收输入音频帧的序列作为输入的单词边界检测模型(210)来预测输入音频帧是否是单词边界。该方法包括基于被预测为单词边界的输入音频帧,将输入音频帧批处理为多个批(222),其中每个批包括对应的多个被批处理的输入音频帧。对于多个批中的每一个,该方法包括使用语音识别模型(230)并行地处理对应的多个被批处理的输入音频帧,以生成语音识别结果(120)。