一种基于自适应注意力机制和渐进式学习的单声道语音增强方法

    公开(公告)号:CN113160839A

    公开(公告)日:2021-07-23

    申请号:CN202110408874.0

    申请日:2021-04-16

    Abstract: 本发明属于语音增强技术领域,具体提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法,用以解决现有基于CNN的语音增强模型因固定感受野导致泛化能力差的问题。本发明根据注意力机制构建得到自适应卷积模块(AACB),模块中并行构建多个感受野的卷积层,并根据输入特征信息为每个卷积层提取的特征分配权重,经过加权拼接实现模块的感受野的自适应调节,有效克服传统卷积模块固定感受野带来的特征提取的局限性问题;同时,本发明基于所述自适应卷积模块构建得到语音增强模型,并采用渐进式学习框架实现的复用,减小模型复杂度。综上,本发明能够适应不同环境下的语音特征提取,显著提升语音增强的泛化性和鲁棒性。

    一种基于自适应注意力机制和渐进式学习的单声道语音增强方法

    公开(公告)号:CN113160839B

    公开(公告)日:2022-10-14

    申请号:CN202110408874.0

    申请日:2021-04-16

    Abstract: 本发明属于语音增强技术领域,具体提供一种基于自适应注意力机制和渐进式学习的单声道语音增强方法,用以解决现有基于CNN的语音增强模型因固定感受野导致泛化能力差的问题。本发明根据注意力机制构建得到自适应卷积模块(AACB),模块中并行构建多个感受野的卷积层,并根据输入特征信息为每个卷积层提取的特征分配权重,经过加权拼接实现模块的感受野的自适应调节,有效克服传统卷积模块固定感受野带来的特征提取的局限性问题;同时,本发明基于所述自适应卷积模块构建得到语音增强模型,并采用渐进式学习框架实现的复用,减小模型复杂度。综上,本发明能够适应不同环境下的语音特征提取,显著提升语音增强的泛化性和鲁棒性。

    一种基于时频跨域特征选择的语音分离方法

    公开(公告)号:CN113113041A

    公开(公告)日:2021-07-13

    申请号:CN202110471865.6

    申请日:2021-04-29

    Abstract: 本发明公开了一种基于时频跨域特征选择的语音分离方法,属于单声道语音分离领域。该方法包括:分别使用一维卷积神经网络与短时傅立叶变换对单通道语音进行编码;将使用两种方式编码得到的特征图进行融合;根据融合得到的特征图,采用分离网络为每个说话人计算一个掩码;将得到的掩码作用于融合的特征图上,得到每个说话人的分离特征图;基于每个说话人的分离特征图,得到每个说话人的语音。本发明将语音分离中的特征选择经过跨域混合,时域和频率域特征相互补充,在多说话人噪声环境下也能准确捕捉语音的特征信号,克服了业界内对于时域以及时频域特征利用不充分的问题,克服了以往在不平稳噪声环境下分离不佳的问题。

    基于多尺度信息感知卷积神经网络的单通道语音增强方法

    公开(公告)号:CN113936680B

    公开(公告)日:2023-08-08

    申请号:CN202111171118.7

    申请日:2021-10-08

    Abstract: 本发明提供了一种基于多尺度信息感知卷积神经网络的单通道语音增强方法,包括编码步骤、非局部信息提取步骤、跳跃连接步骤和解码步骤;在编码和解码步骤中采用一种基于不同感受野的多尺度特征选择卷积模块,在编码过程中根据邻近甚至全局信息提取特征,克服了固定感受野的特征提取局限性,显著提升了模型性能,为单通道语音增强提供了一种新思路。本发明通过膨胀卷积大尺度感受野提取相邻信息来实现局部特征的有效编码,并通过全局信息缓解了语音失真和加强了语音增强效果。将膨胀卷积和全局信息提取应用在编码步骤与解码步骤,合理的利用感受野编码临近信息和全局信息,克服了传统卷积模块固定感受野带来的特征提取的局限性问题。

    基于多尺度信息感知卷积神经网络的单通道语音增强方法

    公开(公告)号:CN113936680A

    公开(公告)日:2022-01-14

    申请号:CN202111171118.7

    申请日:2021-10-08

    Abstract: 本发明提供了一种基于多尺度信息感知卷积神经网络的单通道语音增强方法,包括编码步骤、非局部信息提取步骤、跳跃连接步骤和解码步骤;在编码和解码步骤中采用一种基于不同感受野的多尺度特征选择卷积模块,在编码过程中根据邻近甚至全局信息提取特征,克服了固定感受野的特征提取局限性,显著提升了模型性能,为单通道语音增强提供了一种新思路。本发明通过膨胀卷积大尺度感受野提取相邻信息来实现局部特征的有效编码,并通过全局信息缓解了语音失真和加强了语音增强效果。将膨胀卷积和全局信息提取应用在编码步骤与解码步骤,合理的利用感受野编码临近信息和全局信息,克服了传统卷积模块固定感受野带来的特征提取的局限性问题。

    一种基于信息蒸馏与聚合的低信噪比语音增强方法

    公开(公告)号:CN113936679A

    公开(公告)日:2022-01-14

    申请号:CN202111116339.4

    申请日:2021-09-23

    Abstract: 本发明提供一种基于信息蒸馏与聚合的低信噪比语音增强方法,包括步骤:将原始语谱图进行语音特征提取得到语音信息表示;对语音信息表示进行多阶段信息蒸馏处理得到过滤噪声成分之后的语音信息蒸馏结果;将语音信息蒸馏结果进行语谱图重建。根据注意力机制和信息蒸馏机制形成的多阶段信息蒸馏处理过程中每一时刻的信息蒸馏线上的校准后信息将作为下一时刻自注意力信息处理子模块的输入,通过N个注意力信息处理子模块与N个信息蒸馏子模块顺序的信息蒸馏与重新校准,最终实现噪声成分过滤的效果。本发明能够适应不同环境下的语音特征提取,使模型能够适应不同噪声的声学特征,显著提升语音增强的效果。

    一种基于时频跨域特征选择的语音分离方法

    公开(公告)号:CN113113041B

    公开(公告)日:2022-10-11

    申请号:CN202110471865.6

    申请日:2021-04-29

    Abstract: 本发明公开了一种基于时频跨域特征选择的语音分离方法,属于单声道语音分离领域。该方法包括:分别使用一维卷积神经网络与短时傅立叶变换对单通道语音进行编码;将使用两种方式编码得到的特征图进行融合;根据融合得到的特征图,采用分离网络为每个说话人计算一个掩码;将得到的掩码作用于融合的特征图上,得到每个说话人的分离特征图;基于每个说话人的分离特征图,得到每个说话人的语音。本发明将语音分离中的特征选择经过跨域混合,时域和频率域特征相互补充,在多说话人噪声环境下也能准确捕捉语音的特征信号,克服了业界内对于时域以及时频域特征利用不充分的问题,克服了以往在不平稳噪声环境下分离不佳的问题。

Patent Agency Ranking