-
公开(公告)号:CN112037759A
公开(公告)日:2020-12-04
申请号:CN202010686375.3
申请日:2020-07-16
申请人: 武汉大学
IPC分类号: G10L13/08 , G10L13/033 , G10L25/69
摘要: 本发明提供一种抗噪感知敏感度曲线建立及语音合成方法,包括使用带通滤波,将噪声按人耳感知的临界频带划分,得到若干临界频带噪声;针对每个临界频带噪声,按不同的噪声分贝级,录制对应的抗噪语音序列;基于SII客观测试指标确定感知阈值,对每个临界频带做噪声分贝级感知测试,得到更新后的临界分贝;根据更新后的临界分贝生成抗噪感知敏感度曲线;从抗噪感知敏感度曲线获取临界分贝值,选取不同临界分贝值的抗噪语音,训练抗噪语音特征映射模型,利用映射后的抗噪语音特征进行语音合成。本发明方法利用人们在噪声环境下的听觉特性,提出了一种抗噪感知敏感度曲线建立及语音合成方法,更有利于抗噪语音转换的实际应用场景。
-
公开(公告)号:CN103151049A
公开(公告)日:2013-06-12
申请号:CN201310034369.X
申请日:2013-01-29
申请人: 武汉大学
摘要: 本发明公开了一种面向移动音频的服务质量保障方法及系统,包括感知模块、认知模块和反馈调节模块,先将经网络传输的参考信号和待测信号送入感知模块,得到层声学特征参数失真测度值和能量均衡参数,再将所得参数输入认知模块,得到处理后的基于移动音频的用户体验得分,反馈调节模块根据所得用户体验用户调整网络传输发送端的发送码率。本发明考虑了移动音频系统中码率低、易丢包、说话人方位不固定等特点,将其他相关参数融合入PEAQ模型并反馈回网络传输端,使得对移动音频质量客观评价的结果更精确。
-
公开(公告)号:CN103957216B
公开(公告)日:2017-10-03
申请号:CN201410196690.2
申请日:2014-05-09
申请人: 武汉大学
摘要: 本发明提供了一种基于音频信号特性分类的无参考音频质量评价方法和系统,包括步骤:步骤1,基于有参考音频质量评价模型建立训练模型,采用机器学习获取不同类型音频信号的音频质量与网络参数的关系,即无参考音频质量评价模型;步骤2,在音频信号网络传输中,将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型,获得当前音频质量。本发明对不同类型信号采用不同的质量评价关系式进行质量评价,能更真实地反映用户体验。
-
公开(公告)号:CN103117062B
公开(公告)日:2014-09-17
申请号:CN201310024222.2
申请日:2013-01-22
申请人: 武汉大学
IPC分类号: G10L19/005
摘要: 本发明公开了一种语音解码器中帧差错隐藏的谱参数替代方法及系统,本发明方法包括步骤:判断接收的语音帧是否为坏帧;统计连续坏帧数量;根据当前坏帧的近邻好帧的基音周期变化趋势对当前坏帧的谱参数进行恢复。本发明根据当前坏帧的近邻好帧的基音周期变化趋势,采用持续平稳的近邻好帧的自适应平均值来代替坏帧的谱参数,从而隐藏由语音解码器经通信信道接收的坏帧的影响。本发明能够为坏帧寻找最适合的替代谱参数,可提高合成语音的主观质量。
-
公开(公告)号:CN103957216A
公开(公告)日:2014-07-30
申请号:CN201410196690.2
申请日:2014-05-09
申请人: 武汉大学
摘要: 本发明提供了一种基于音频信号特性分类的无参考音频质量评价方法和系统,包括步骤:步骤1,基于有参考音频质量评价模型建立训练模型,采用机器学习获取不同类型音频信号的音频质量与网络参数的关系,即无参考音频质量评价模型;步骤2,在音频信号网络传输中,将当前丢包率、当前延迟时间和当前丢包数据的音频信号类型输入无参考音频质量评价模型,获得当前音频质量。本发明对不同类型信号采用不同的质量评价关系式进行质量评价,能更真实地反映用户体验。
-
公开(公告)号:CN102664017B
公开(公告)日:2013-05-08
申请号:CN201210125344.6
申请日:2012-04-25
申请人: 武汉大学
摘要: 本发明是一种3D音频质量客观评价方法,经过双耳合成后,分别提取多声道信号的音色感知特征参数、水平声场感知特征参数和高度声场感知特征参数这三种底层声学特征参数,最后通过3D声场心理认知模型的处理以达到拟合主观评价的结果,从而实现客观评价方法与主观评价方法的最大相关。本方法考虑了双耳对三维空间内的声源信息的音色及声场的感知特征参数,客观评价结果更接近三维感知声场的主观评价得分。
-
公开(公告)号:CN103456307A
公开(公告)日:2013-12-18
申请号:CN201310429973.2
申请日:2013-09-18
申请人: 武汉大学
IPC分类号: G10L19/005
摘要: 本发明公开了一种音频解码器中帧差错隐藏的谱代替方法及系统,本发明方法根据上一帧和当前坏帧的线性预测滤波器参数确定当前坏帧的衰减因子,并根据当前坏帧衰减因子和/或当前坏帧的幅值增益、以及上一帧的谱参数获得当前坏帧的谱参数替代值。本发明用来处理音频解码器接收的坏帧,能提高解码后的音频序列的主客观质量。
-
公开(公告)号:CN103117062A
公开(公告)日:2013-05-22
申请号:CN201310024222.2
申请日:2013-01-22
申请人: 武汉大学
IPC分类号: G10L19/005
摘要: 本发明公开了一种语音解码器解中帧差错隐藏的谱参数替代方法及系统,本发明方法包括步骤:判断接收的语音帧是否为坏帧;统计连续坏帧数量;根据当前坏帧的近邻好帧的基音周期变化趋势对当前坏帧的谱参数进行恢复。本发明根据当前坏帧的近邻好帧的基音周期变化趋势,采用持续平稳的近邻好帧的自适应平均值来代替坏帧的谱参数,从而隐藏由语音解码器经通信信道接收的坏帧的影响。本发明能够为坏帧寻找最适合的替代谱参数,可提高合成语音的主观质量。
-
-
公开(公告)号:CN102664017A
公开(公告)日:2012-09-12
申请号:CN201210125344.6
申请日:2012-04-25
申请人: 武汉大学
摘要: 本发明是一种3D音频质量客观评价方法,经过双耳合成后,分别提取多声道信号的音色感知特征参数、水平声场感知特征参数和高度声场感知特征参数这三种底层声学特征参数,最后通过3D声场心理认知模型的处理以达到拟合主观评价的结果,从而实现客观评价方法与主观评价方法的最大相关。本方法考虑了双耳对三维空间内的声源信息的音色及声场的感知特征参数,客观评价结果更接近三维感知声场的主观评价得分。
-
-
-
-
-
-
-
-
-