一种使用堆叠多尺度模块的语音增强方法

    公开(公告)号:CN110751957B

    公开(公告)日:2020-10-27

    申请号:CN201911182689.3

    申请日:2019-11-27

    Abstract: 本发明公开一种使用堆叠多尺度模块的端到端语音增强方法,包括以下步骤:S1:构建级联端到端语音增强框架,并将堆叠的多尺度模块拼接到网络结构中;S2:在预处理阶段,将时域信号变换为二维特征;S3:利用语音增强模块对二维特征进行增强;S4:在后处理阶段,通过解码合成将增强后的特征表示变换为一维时域信号。为进一步提高算法的性能,运用多目标联合优化的训练策略将语音增强的评价指标STOI与SDR融入到损失函数中。实验表明,本发明提出的方法能够显著提高语音增强效果,并且在未知噪声和低信噪比条件下具有较好的抗噪性。

    一种embedding编解码器的语音增强系统及方法

    公开(公告)号:CN111009252B

    公开(公告)日:2020-08-11

    申请号:CN201911314132.0

    申请日:2019-12-19

    Abstract: 本发明提供了一种embedding编解码器的语音增强系统,构造了一个堆叠的神经网络模型,神经网络模型对语音语谱图进行编码,对每个时频元高维映射而形成embedding向量表示。基于上述系统,本发明还提供了一种embedding编解码器的语音增强方法。本发明从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。此外,本发明中神经网络模型可在低信噪比环境下稳定工作。

    一种基于RefineNet和评价损失的语音增强方法

    公开(公告)号:CN110675888A

    公开(公告)日:2020-01-10

    申请号:CN201910913635.3

    申请日:2019-09-25

    Abstract: 本发明公开一种基于RefineNet和评价损失的语音增强方法,包括以下步骤:S1:通过短时傅里叶变换(STFT)从时域带噪声的语音s计算出幅度x和相位p;S2:通过ResNet从x提取多级时频特征,提取出的多级时频特征由RefineNet融合,并且使用x和RefineNet的输出之间的残差连接来促进模型训练;S3:将特征图输入全连接层以估计干净语音的频谱幅度 S4:通过逆STFT(ISTFT)将p和重构成时域干净语音的估计 其中,通过卷积层实现ISTFT,并且将语音质量和可懂度的多个性能指标融合作为损失函数。

    一种基于卷积神经网络的多说话人语音分离方法

    公开(公告)号:CN110619887A

    公开(公告)日:2019-12-27

    申请号:CN201910914177.5

    申请日:2019-09-25

    Abstract: 本发明公开一种基于卷积神经网络的多说话人语音分离方法,包括以下步骤:S1:构建基于卷积神经网络的语音分离模型,所述模型包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;S3:使用基于门控一维卷积的吸引子估计网络估计每个声源的吸引子。该网络在嵌入维度中完成卷积操作,将时间及频率维度作为通道维度。最后通过在高维空间计算每个吸引子与各个时频点的相似度,得到每个源的时频掩膜。

    一种多模块抑制不同种类噪声的双噪声语音增强方法

    公开(公告)号:CN110491406A

    公开(公告)日:2019-11-22

    申请号:CN201910914176.0

    申请日:2019-09-25

    Abstract: 本发明公开一种多模块抑制不同种类噪声的双噪声语音增强方法,包括以下步骤:S1:对多种类型的噪声进行分阶段建模,对于输入的带噪语音,在每个阶段通过噪声抑制模块提取并过滤一种或多种噪声特征;其中,每个噪声抑制模块的损失函数均不相同;S2:过程中被抑制部分噪声的幅度谱和原始带噪语音幅度谱拼接并输入最终的神经网络;本发明提出一种多模块分阶段抑制不同种类噪声的双噪声语音增强方法,每个模块分别抑制一种或几种不同类型的噪声,同时提高其在混合噪声环境和低信噪比环境的性能,再将增强结果集成到后一阶段,它在每个阶段使用神经网络学习带噪幅度谱到较纯净幅度谱的映射,对特征进行提炼,得到更加纯净的幅度谱。

    一种基于RefineNet的端到端语音增强方法

    公开(公告)号:CN110246510A

    公开(公告)日:2019-09-17

    申请号:CN201910549850.X

    申请日:2019-06-24

    Abstract: 本发明公开了一种基于RefineNet的端到端语音增强方法,首先构建一个时频分析网络对语音信号编码分析,然后利用RefineNet网络学习含噪语音到纯净语音的特征映射,最后解码生成增强的语音信号。在此基础上,我们提出将评价指标与训练损失函数相融合的改进方法以及将STOI与SDR同时作为优化目标的多目标融合学习策略。在不同噪声环境和不同信噪比下的测试中,本发明提出的方法在STOI、PESQ以及SDR方面的指标显著优于具有代表性的传统方法、非端到端和端到端的深度学习方法,能更好地提高语音的清晰度和可懂度;得到更好的语音增强效果。

Patent Agency Ranking