-
公开(公告)号:CN118486313B
公开(公告)日:2024-09-13
申请号:CN202410924703.7
申请日:2024-07-11
申请人: 广东技术师范大学
IPC分类号: G10L21/013 , G10L25/18 , G10L25/30
摘要: 本发明公开一种基于参数动态调整的生成对抗网络语音转换方法,在特征提取阶段,提取语音的基频、频谱包络及非周期性特征。训练时,对特征张量进行批量归一化和自注意力处理,再经卷积、Sigmoid激活及Dropout正则化得到gamma调整参数。随后,通过自适应池化和卷积生成动态gamma值,强化频谱特征间的相关性,提升语音质量。在转换阶段,使用训练模型结合声码器合成目标语音。本方案利用频谱包络与动态gamma值,增强特征间长距离依赖,提高语音转换性能。
-
公开(公告)号:CN116665717A
公开(公告)日:2023-08-29
申请号:CN202310963463.7
申请日:2023-08-02
申请人: 广东技术师范大学
摘要: 本发明公开了一种跨子带谱熵加权似然比语音检测方法及系统,首先在频域进行非均匀部分重叠子带划分,提取各子带的谱熵特征;然后根据子带谱熵大小以及子带的能量谱与非语音帧子带平均能量谱的比值大小,设置对应子带的似然比权值;最后利用加权后的似然比结合预设阈值检测判断某帧信号是否为语音帧。本发明依据语音信号谱熵特征在噪声背景下具有稳健性,利用子带谱熵信息设置似然比检验检测法中的似然比权值,使用加权的似然比作为语音检测判决依据之一,提升了低信噪比环境下的似然比检验语音检测方法的检测准确率,适用于语音识别、说话人识别等语音信号处理领域。
-
公开(公告)号:CN118486313A
公开(公告)日:2024-08-13
申请号:CN202410924703.7
申请日:2024-07-11
申请人: 广东技术师范大学
IPC分类号: G10L17/18 , G10L17/02 , G10L17/04 , G06N3/0442 , G06N3/0464 , G06N3/0475 , G06N3/048 , G06N3/08
摘要: 本发明公开一种基于参数动态调整的生成对抗网络语音转换方法,在特征提取阶段,提取语音的基频、频谱包络及非周期性特征。训练时,对特征张量进行批量归一化和自注意力处理,再经卷积、Sigmoid激活及Dropout正则化得到gamma调整参数。随后,通过自适应池化和卷积生成动态gamma值,强化频谱特征间的相关性,提升语音质量。在转换阶段,使用训练模型结合声码器合成目标语音。本方案利用频谱包络与动态gamma值,增强特征间长距离依赖,提高语音转换性能。
-
公开(公告)号:CN115376485B
公开(公告)日:2024-04-30
申请号:CN202210999693.4
申请日:2022-08-19
申请人: 广东技术师范大学
摘要: 本发明公开一种基于小波包分解特征参数的语音转换方法,在训练阶段,对训练语音样本以句为单位提取长时基音频率F0LT和长时平均功率谱NPOWLT,对其进行小波包分解后输入高斯混合模型训练得到转换函数;在转换阶段,对需转换的源说话人样本提取同类型长时特征参数F0LT和NPOWLT并进行小波包分解,使用转换函数转换后进行小波包逆变换,得到转换的目标说话人基音频率F0,最终结合其余特征生成目标说话人语音。本发明以句为单位提取说话人的长时基音频率特征并联合功率谱参数进行转换,提高转换语音与目标说话人实际语音的韵律相似度;采用小波包变换对提取的长时特征进行分解后训练与转换,可提高特征的高频分辨率,从而提高转换基音频率与目标说话人实际基音频率的相似度。
-
公开(公告)号:CN116665717B
公开(公告)日:2023-09-29
申请号:CN202310963463.7
申请日:2023-08-02
申请人: 广东技术师范大学
摘要: 本发明公开了一种跨子带谱熵加权似然比语音检测方法及系统,首先在频域进行非均匀部分重叠子带划分,提取各子带的谱熵特征;然后根据子带谱熵大小以及子带的能量谱与非语音帧子带平均能量谱的比值大小,设置对应子带的似然比权值;最后利用加权后的似然比结合预设阈值检测判断某帧信号是否为语音帧。本发明依据语音信号谱熵特征在噪声背景下具有稳健性,利用子带谱熵信息设置似然比检验检测法中的似然比权值,使用加权的似然比作为语音检测判决依据之一,提升了低信噪比环境下的似然比检验语音检测方法的检测准确率,适用于语音识别、说话人识别等语音信号处理领域。
-
公开(公告)号:CN115376485A
公开(公告)日:2022-11-22
申请号:CN202210999693.4
申请日:2022-08-19
申请人: 广东技术师范大学
摘要: 本发明公开一种基于小波包分解特征参数的语音转换方法,在训练阶段,对训练语音样本以句为单位提取长时基音频率F0LT和长时平均功率谱NPOWLT,对其进行小波包分解后输入高斯混合模型训练得到转换函数;在转换阶段,对需转换的源说话人样本提取同类型长时特征参数F0LT和NPOWLT并进行小波包分解,使用转换函数转换后进行小波包逆变换,得到转换的目标说话人基音频率F0,最终结合其余特征生成目标说话人语音。本发明以句为单位提取说话人的长时基音频率特征并联合功率谱参数进行转换,提高转换语音与目标说话人实际语音的韵律相似度;采用小波包变换对提取的长时特征进行分解后训练与转换,可提高特征的高频分辨率,从而提高转换基音频率与目标说话人实际基音频率的相似度。
-
-
-
-
-