多人场景人声匹配方法
摘要:
本申请实施例提供了一种多人场景人声匹配方法,包括:将待匹配音频划分为多个声音片段;对声音片段进行语音识别,得到声音片段中的语音片段;获取语音片段对应的视频片段;对视频片段进行人脸检测,得到语音片段的全部预测发言人;根据视频片段中相邻灰度帧的像素差值,得到每个预测发言人在相邻灰度帧的命中信息;根据命中信息统计每个预测发言人在视频片段中的命中次数,命中次数最大的预测发言人为语音片段的目标发言人。本申请实现了将语音自动绑定到所属的目标发言人,可大大降低后续人工匹配语音和目标发言人的工作量,有利于推动视听觉认知技术的实用化。
公开/授权文献
0/0