-
公开(公告)号:CN113593601A
公开(公告)日:2021-11-02
申请号:CN202110846973.7
申请日:2021-07-27
Applicant: 哈尔滨理工大学
Abstract: 本发明公开了一种基于深度学习的视听多模态语音分离方法,所述方法包括:对视频流的每个说话人的面部进行识别,获得说话人的面部嵌入,处理说话人的每帧面部嵌入以生成说话者的面部视觉特征;获得视频的音频频谱图,对所得到的的音频谱图进行处理以生成音频的音频嵌入特征;将一个或者多个说话人的视觉特征和音频特征进行多模态融合,生成视听融合特征;构建多模态网络模型;将视听融合特征输入多模态网络模型进行训练,得到一个或多个说话人的每一个确定相应的频谱图掩模;根据频率掩模确定每个说话人相应的语音频谱图,最终分离出语音信号。本发明提供的方法能够有效提高语音分离性能,使分离后的语音更加清晰、可懂且音质更好。