基于唇部检测的查询端点化
摘要:
描述了用于改善由用户提交的言语查询的端点检测的系统和方法。在一些实施方式中,接收同步的视频数据和音频数据。确定包括与脸部上的唇部移动对应的图像的视频数据的帧序列。基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据。端点化的音频数据的录音由自动语音识别器生成。然后生成的录音被提供用于输出。
公开/授权文献
0/0