一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置

    公开(公告)号:CN113870888A

    公开(公告)日:2021-12-31

    申请号:CN202111119961.0

    申请日:2021-09-24

    Applicant: 武汉大学

    Abstract: 本发明提供了一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置,其中的方法包括:首先将语音信号经过短时傅里叶变换得到时频域特征,然后利用多层卷积神经网络得到中间映射特征,之后基于时域注意力模块得到时间权值向量,并将其扩展到与中间映射特征相同的维度后做哈达玛乘积,得到经过时域加权的映射特征,然后利用频域注意力模块得到频率权值向量,并将其扩展到与经过时间加权的映射特征相同的维度后做哈达玛乘积,得到最终的经过时域和频域加权的映射特征。本发明的时域和频域注意力模块可以很容易地嵌入到基于卷积神经网络的声学回声消除模型中,使模型自适应学习时频域特征的权重,以此提升模型性能的效果。

    基于自注意力变换网络的多特征融合回声消除方法及系统

    公开(公告)号:CN113870874B

    公开(公告)日:2024-09-13

    申请号:CN202111113340.1

    申请日:2021-09-23

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于自注意力变换网络的多特征融合回声消除方法及系统,使用独立的卷积编码器对近端信号和远端信号分别提取潜在特征;将编码后的双端信号经过多头注意力计算注意力权重矩阵,与双端信号的潜在特征进行拼接,并使用一个深度可分离卷积网络对拼接信号进行融合;融合信号通过维度转换操作后生成块内特征,经过一个深度动态自注意力变换网络,再利用残差连接与注意力权重矩阵相加,转换为块间特征后再次经过深度动态自注意力变换网络;重复块内及块间操作,计算出掩码值;将掩蔽后的编码信号进行解码,得到消除回声后的近端信号。本发明能够在多种场景下消除回声,能够在保持近端语音完整性的情况下极大地提升回声消除的效果。

    神经网络训练方法、装置、电子设备及介质

    公开(公告)号:CN114783449A

    公开(公告)日:2022-07-22

    申请号:CN202210293128.6

    申请日:2022-03-23

    Applicant: 武汉大学

    Abstract: 本发明公开了神经网络训练方法、装置、电子设备及介质,涉及音频信号编解码技术领域。训练方法包括以下步骤:基于神经网络的编码器将音频信号编码为深层次特征;量化器将深层次特征量化;解量化器将深层次特征量化索引解量化;基于神经网络的解码器将解量化的深层次特征解码,得到解码音频信号;基于心理声学模型计算输入音频信号的信掩比;听觉感知损失计算模块计算解码音频信号的听觉感知损失;训练模块基于引入听觉感知特性的损失函数训练编码器、量化码本以及解码器,直至损失收敛。根据本发明训练方法得到的编解码器,能够使解码音频信号的每一个频率成分的重建噪声尽可能地控制在掩蔽阈值内,从而达到提升解码音频信号感知质量的效果。

    神经网络训练方法、装置、电子设备及介质

    公开(公告)号:CN114783449B

    公开(公告)日:2024-09-17

    申请号:CN202210293128.6

    申请日:2022-03-23

    Applicant: 武汉大学

    Abstract: 本发明公开了神经网络训练方法、装置、电子设备及介质,涉及音频信号编解码技术领域。训练方法包括以下步骤:基于神经网络的编码器将音频信号编码为深层次特征;量化器将深层次特征量化;解量化器将深层次特征量化索引解量化;基于神经网络的解码器将解量化的深层次特征解码,得到解码音频信号;基于心理声学模型计算输入音频信号的信掩比;听觉感知损失计算模块计算解码音频信号的听觉感知损失;训练模块基于引入听觉感知特性的损失函数训练编码器、量化码本以及解码器,直至损失收敛。根据本发明训练方法得到的编解码器,能够使解码音频信号的每一个频率成分的重建噪声尽可能地控制在掩蔽阈值内,从而达到提升解码音频信号感知质量的效果。

    一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置

    公开(公告)号:CN113870888B

    公开(公告)日:2024-09-13

    申请号:CN202111119961.0

    申请日:2021-09-24

    Applicant: 武汉大学

    Abstract: 本发明提供了一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置,其中的方法包括:首先将语音信号经过短时傅里叶变换得到时频域特征,然后利用多层卷积神经网络得到中间映射特征,之后基于时域注意力模块得到时间权值向量,并将其扩展到与中间映射特征相同的维度后做哈达玛乘积,得到经过时域加权的映射特征,然后利用频域注意力模块得到频率权值向量,并将其扩展到与经过时间加权的映射特征相同的维度后做哈达玛乘积,得到最终的经过时域和频域加权的映射特征。本发明的时域和频域注意力模块可以很容易地嵌入到基于卷积神经网络的声学回声消除模型中,使模型自适应学习时频域特征的权重,以此提升模型性能的效果。

    基于自注意力变换网络的多特征融合回声消除方法及系统

    公开(公告)号:CN113870874A

    公开(公告)日:2021-12-31

    申请号:CN202111113340.1

    申请日:2021-09-23

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于自注意力变换网络的多特征融合回声消除方法及系统,使用独立的卷积编码器对近端信号和远端信号分别提取潜在特征;将编码后的双端信号经过多头注意力计算注意力权重矩阵,与双端信号的潜在特征进行拼接,并使用一个深度可分离卷积网络对拼接信号进行融合;融合信号通过维度转换操作后生成块内特征,经过一个深度动态自注意力变换网络,再利用残差连接与注意力权重矩阵相加,转换为块间特征后再次经过深度动态自注意力变换网络;重复块内及块间操作,计算出掩码值;将掩蔽后的编码信号进行解码,得到消除回声后的近端信号。本发明能够在多种场景下消除回声,能够在保持近端语音完整性的情况下极大地提升回声消除的效果。

Patent Agency Ranking