-
公开(公告)号:CN116013344A
公开(公告)日:2023-04-25
申请号:CN202211637892.7
申请日:2022-12-17
申请人: 西安交通大学
IPC分类号: G10L21/0208 , G10L25/30
摘要: 本发明公开了一种多种噪声环境下的语音增强方法,其包括:1)完成音频的预处理与数据增强操作;2)使用基于Transformer架构的多尺度编码器提取多层次音频特征,并借助特征提升模块强化关键的特征;3)借助基于双路架构的长短期感知模块分别实现不同维度上长短期特征的捕获;4)使用残差解码器和掩码估计模块获得纯净语音信号;5)借助均方误差损失项和信噪比损失项联合训练网络模型。此方法的鲁棒性强,实时性高,可以有效地处理鸣笛声、喧嚣声、鼓掌声、鸟鸣声等十种常见的噪声,从而改善短视频、网络直播、视频会议、语音通话等应用的用户体验。与部分主流语音增强模型相比,在相关评价指标上可以平均提升16%。
-
公开(公告)号:CN116013297A
公开(公告)日:2023-04-25
申请号:CN202211628536.9
申请日:2022-12-17
申请人: 西安交通大学
摘要: 本发明公开了一种基于多模态门控提升模型的视听语音降噪方法,包括以下步骤:图像与音频的分离存储;音频与图像的预处理;借助唇部定位算法与短时傅里叶变换分别完成唇部图像的裁剪与语音频谱图的生成;使用层次化注意力模块与双路频谱增强模块分别实现视觉特征与音频特征的捕获与增强;利用门控编码器逐步融合视觉特征与音频特征;采用时频提升模块强化关键的视音特征;借助门控解码器估计纯净语音频谱图;借助短时傅里叶逆变换获取语音信号;完成网络模型的训练或测试。本发明鲁棒性强,适用范围广,可以实现复杂噪声环境下的语音降噪。与部分主流降噪模型相比,本发明在SI‑SDR和PESQ评价指标上分别提升了约15%和19%。
-