-
公开(公告)号:CN113113041A
公开(公告)日:2021-07-13
申请号:CN202110471865.6
申请日:2021-04-29
Applicant: 电子科技大学
IPC: G10L21/0272 , G10L21/0208 , G10L21/0224 , G10L21/0232 , G10L19/18 , G10L25/30 , G10L15/02
Abstract: 本发明公开了一种基于时频跨域特征选择的语音分离方法,属于单声道语音分离领域。该方法包括:分别使用一维卷积神经网络与短时傅立叶变换对单通道语音进行编码;将使用两种方式编码得到的特征图进行融合;根据融合得到的特征图,采用分离网络为每个说话人计算一个掩码;将得到的掩码作用于融合的特征图上,得到每个说话人的分离特征图;基于每个说话人的分离特征图,得到每个说话人的语音。本发明将语音分离中的特征选择经过跨域混合,时域和频率域特征相互补充,在多说话人噪声环境下也能准确捕捉语音的特征信号,克服了业界内对于时域以及时频域特征利用不充分的问题,克服了以往在不平稳噪声环境下分离不佳的问题。
-
公开(公告)号:CN110619887B
公开(公告)日:2020-07-10
申请号:CN201910914177.5
申请日:2019-09-25
Applicant: 电子科技大学
IPC: G10L21/0272 , G10L25/30 , G06N3/04
Abstract: 本发明公开一种基于卷积神经网络的多说话人语音分离方法,包括以下步骤:S1:构建基于卷积神经网络的语音分离模型,所述模型包括嵌入生成网络和吸引子估计网络;所述嵌入生成网络用于将时频点从频谱图映射到嵌入空间,所述吸引子网络用于在高维嵌入空间中直接估计每个源的吸引子;S2:使用基于可分离门控卷积神经网络的嵌入生成网络将语谱图中的时频点映射到高维嵌入空间;S3:使用基于门控一维卷积的吸引子估计网络估计每个声源的吸引子。该网络在嵌入维度中完成卷积操作,将时间及频率维度作为通道维度。最后通过在高维空间计算每个吸引子与各个时频点的相似度,得到每个源的时频掩膜。
-
公开(公告)号:CN110491406B
公开(公告)日:2020-07-31
申请号:CN201910914176.0
申请日:2019-09-25
Applicant: 电子科技大学
IPC: G10L21/0208 , G10L21/0316 , G10L25/30
Abstract: 本发明公开一种多模块抑制不同种类噪声的双噪声语音增强方法,包括以下步骤:S1:对多种类型的噪声进行分阶段建模,对于输入的带噪语音,在每个阶段通过噪声抑制模块提取并过滤一种或多种噪声特征;其中,每个噪声抑制模块的损失函数均不相同;S2:过程中被抑制部分噪声的幅度谱和原始带噪语音幅度谱拼接并输入最终的神经网络;本发明提出一种多模块分阶段抑制不同种类噪声的双噪声语音增强方法,每个模块分别抑制一种或几种不同类型的噪声,同时提高其在混合噪声环境和低信噪比环境的性能,再将增强结果集成到后一阶段,它在每个阶段使用神经网络学习带噪幅度谱到较纯净幅度谱的映射,对特征进行提炼,得到更加纯净的幅度谱。
-
公开(公告)号:CN110751958A
公开(公告)日:2020-02-04
申请号:CN201910913616.0
申请日:2019-09-25
Applicant: 电子科技大学
IPC: G10L21/0208
Abstract: 本发明公开一种基于RCED网络的降噪方法,包括以下步骤:S1:构建RCED;S2:将目标增强帧和其两侧的部分帧进行拼接,然后通过RCED进行卷积操作;S3:将RCED中的编码器输出和相应解码器输出进行拼接,然后输入到下一个卷积层中执行后续操作;S4:引入shortcut机制,将所有编码器和所有解码器分别组合成一个Dense Block,在层之间增加短路路径。本发明使用只包含卷积层的RCED,丢弃了池化层和与其对应的上采样层;并在其上引入不同的shortcut机制,性能良好且有泛化性,可以重复利用信息,从而使用更少的数据来提取出更多有用的特征;易于训练、减少梯度消亡、减少参数,同时在小数据集上克服过拟合的问题。
-
公开(公告)号:CN113113041B
公开(公告)日:2022-10-11
申请号:CN202110471865.6
申请日:2021-04-29
Applicant: 电子科技大学
IPC: G10L21/0272 , G10L21/0208 , G10L21/0224 , G10L21/0232 , G10L19/18 , G10L25/30 , G10L15/02
Abstract: 本发明公开了一种基于时频跨域特征选择的语音分离方法,属于单声道语音分离领域。该方法包括:分别使用一维卷积神经网络与短时傅立叶变换对单通道语音进行编码;将使用两种方式编码得到的特征图进行融合;根据融合得到的特征图,采用分离网络为每个说话人计算一个掩码;将得到的掩码作用于融合的特征图上,得到每个说话人的分离特征图;基于每个说话人的分离特征图,得到每个说话人的语音。本发明将语音分离中的特征选择经过跨域混合,时域和频率域特征相互补充,在多说话人噪声环境下也能准确捕捉语音的特征信号,克服了业界内对于时域以及时频域特征利用不充分的问题,克服了以往在不平稳噪声环境下分离不佳的问题。
-
公开(公告)号:CN110675891B
公开(公告)日:2020-09-18
申请号:CN201910913626.4
申请日:2019-09-25
Applicant: 电子科技大学
IPC: G10L21/0224 , G10L21/0232 , G10L21/0272 , G10L21/0308 , G10L17/02 , G10L17/04 , G10L25/27 , G10L25/45
Abstract: 本发明公开一种基于多层注意力机制的语音分离方法,包括以下步骤:S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。本发明在每一层中引入说话人信息以添加辅助信息以帮助提取语音,引入计算注意机制以处理每一层的输出,并通过多层结构提取语音信号。
-
公开(公告)号:CN111009252A
公开(公告)日:2020-04-14
申请号:CN201911314132.0
申请日:2019-12-19
Applicant: 电子科技大学
Abstract: 本发明提供了一种embedding编解码器的语音增强系统,构造了一个堆叠的神经网络模型,神经网络模型对语音语谱图进行编码,对每个时频元高维映射而形成embedding向量表示。基于上述系统,本发明还提供了一种embedding编解码器的语音增强方法。本发明从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。此外,本发明中神经网络模型可在低信噪比环境下稳定工作。
-
公开(公告)号:CN110751957A
公开(公告)日:2020-02-04
申请号:CN201911182689.3
申请日:2019-11-27
Applicant: 电子科技大学
Abstract: 本发明公开一种使用堆叠多尺度模块的端到端语音增强方法,包括以下步骤:S1:构建级联端到端语音增强框架,并将堆叠的多尺度模块拼接到网络结构中;S2:在预处理阶段,将时域信号变换为二维特征;S3:利用语音增强模块对二维特征进行增强;S4:在后处理阶段,通过解码合成将增强后的特征表示变换为一维时域信号。为进一步提高算法的性能,运用多目标联合优化的训练策略将语音增强的评价指标STOI与SDR融入到损失函数中。实验表明,本发明提出的方法能够显著提高语音增强效果,并且在未知噪声和低信噪比条件下具有较好的抗噪性。
-
公开(公告)号:CN110675891A
公开(公告)日:2020-01-10
申请号:CN201910913626.4
申请日:2019-09-25
Applicant: 电子科技大学
IPC: G10L21/0224 , G10L21/0232 , G10L21/0272 , G10L21/0308 , G10L17/02 , G10L17/04 , G10L25/27 , G10L25/45
Abstract: 本发明公开一种基于多层注意力机制的语音分离方法,包括以下步骤:S1:获取混合语音中特定讲话人的干净语音,并提取所述特定讲话人的声纹信息,所述混合语音包括多个讲话者;S2:通过多层注意结构和特定讲话人的声纹信息,连续净化所述混合语音,以获取分离语音。本发明在每一层中引入说话人信息以添加辅助信息以帮助提取语音,引入计算注意机制以处理每一层的输出,并通过多层结构提取语音信号。
-
公开(公告)号:CN110246510B
公开(公告)日:2021-04-06
申请号:CN201910549850.X
申请日:2019-06-24
Applicant: 电子科技大学
IPC: G10L19/02 , G10L21/0224 , G10L21/0232 , G10L25/27
Abstract: 本发明公开了一种基于RefineNet的端到端语音增强方法,首先构建一个时频分析网络对语音信号编码分析,然后利用RefineNet网络学习含噪语音到纯净语音的特征映射,最后解码生成增强的语音信号。在此基础上,我们提出将评价指标与训练损失函数相融合的改进方法以及将STOI与SDR同时作为优化目标的多目标融合学习策略。在不同噪声环境和不同信噪比下的测试中,本发明提出的方法在STOI、PESQ以及SDR方面的指标显著优于具有代表性的传统方法、非端到端和端到端的深度学习方法,能更好地提高语音的清晰度和可懂度;得到更好的语音增强效果。
-
-
-
-
-
-
-
-
-