一种多种噪声环境下的语音增强方法

    公开(公告)号:CN116013344A

    公开(公告)日:2023-04-25

    申请号:CN202211637892.7

    申请日:2022-12-17

    Abstract: 本发明公开了一种多种噪声环境下的语音增强方法,其包括:1)完成音频的预处理与数据增强操作;2)使用基于Transformer架构的多尺度编码器提取多层次音频特征,并借助特征提升模块强化关键的特征;3)借助基于双路架构的长短期感知模块分别实现不同维度上长短期特征的捕获;4)使用残差解码器和掩码估计模块获得纯净语音信号;5)借助均方误差损失项和信噪比损失项联合训练网络模型。此方法的鲁棒性强,实时性高,可以有效地处理鸣笛声、喧嚣声、鼓掌声、鸟鸣声等十种常见的噪声,从而改善短视频、网络直播、视频会议、语音通话等应用的用户体验。与部分主流语音增强模型相比,在相关评价指标上可以平均提升16%。

Patent Agency Ranking