-
公开(公告)号:CN116110437B
公开(公告)日:2023-06-13
申请号:CN202310395720.1
申请日:2023-04-14
Applicant: 天津大学
Abstract: 本发明提供了一种基于语音特征和说话人特征融合的病理嗓音质量评价方法,输入病理嗓音,提取频谱图、梅尔频率倒谱系数两种语音特征,并进行特征融合;将融合后的语音特征作为输入,对其进行时间信息的提取以及帧级分数的预测;将梅尔频率倒谱系数语音特征作为输入,进行说话人特征的提取;对经过时间信息提取后所得的语音特征和所得的说话人特征作为输入,进行特征融合,得到话语级质量分数的预测。本发明通过从病理嗓音中提取语音特征和说话人特征,并进行特征融合,最后进行分数预测,找到病理嗓音与其所对应的主观质量分数之间的映射关系,从而实现对病理嗓音质量做出客观、定量的评价。
-
公开(公告)号:CN115359782B
公开(公告)日:2024-05-14
申请号:CN202210989714.4
申请日:2022-08-18
Applicant: 天津大学
Abstract: 本发明提出一种基于质量和韵律特征融合的古诗词朗读评估方法,包括建立基于MOS的客观语音质量评价模型,提取mel频谱特征,mask_res残差卷积网络提取信号高维度特征,UnMask输出模块聚合单个古诗词朗诵的MOS评分;建立基于特征融合韵律评价模型,提取基频、能量、过零率等信号基本特征,通过多特征分析模型,计算为轻重音、语调、节奏韵律特征参数,建立韵律评分函数,映射实际韵律得分;建立基于多项式拟合的综合度量体系基于最优解和最小化模型的目标,构建基于质量和韵律特征融合的无参考评价模型。
-
公开(公告)号:CN110046655A
公开(公告)日:2019-07-23
申请号:CN201910235050.0
申请日:2019-03-26
Applicant: 天津大学
IPC: G06K9/62
Abstract: 一种基于集成学习的音频场景识别方法,包括:将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路;将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。本发明相比于单个分类器网络的准确率,平均提升了9.3%。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题,可以对整个数据集中的复杂音频进行全面的建模。能够得到高性能的音频场景识别系统。
-
公开(公告)号:CN116312469A
公开(公告)日:2023-06-23
申请号:CN202310553240.3
申请日:2023-05-17
Applicant: 天津大学
IPC: G10L13/033 , G10L13/08 , G10L21/007 , G10L25/66
Abstract: 本发明提供了一种基于语音转换的病理嗓音修复方法,包括对病理说话人的指定语料进行基于参数的修复得到少量修复语音,然后对修复的语音进行MOS打分,选择分数最高的语音作为“伪参考语料”;将“伪参考语料”作为目标语音,输入至音色编码器网络中提取音色;通过内容编码器分离出病理嗓音内容;对音色和病理嗓音内容经过解码器网络进行合成得到修复语音。本发明选择采用参数修复方法得到少量修复语音作为目标语音输入,结合语音转换技术,实现不受文本约束的病理嗓音修复。
-
公开(公告)号:CN116110437A
公开(公告)日:2023-05-12
申请号:CN202310395720.1
申请日:2023-04-14
Applicant: 天津大学
Abstract: 本发明提供了一种基于语音特征和说话人特征融合的病理嗓音质量评价方法,输入病理嗓音,提取频谱图、梅尔频率倒谱系数两种语音特征,并进行特征融合;将融合后的语音特征作为输入,对其进行时间信息的提取以及帧级分数的预测;将梅尔频率倒谱系数语音特征作为输入,进行说话人特征的提取;对经过时间信息提取后所得的语音特征和所得的说话人特征作为输入,进行特征融合,得到话语级质量分数的预测。本发明通过从病理嗓音中提取语音特征和说话人特征,并进行特征融合,最后进行分数预测,找到病理嗓音与其所对应的主观质量分数之间的映射关系,从而实现对病理嗓音质量做出客观、定量的评价。
-
公开(公告)号:CN108399105B
公开(公告)日:2021-05-04
申请号:CN201810165374.7
申请日:2018-02-27
Applicant: 天津大学
Abstract: 一种基于改进头脑风暴算法的软硬件划分方法:初始化参数;初始化聚类中心;迭代更新开始,按照适应度值由小到大对个体进行排序,排序第一的为全局最优个体;从排序后的第一个个体开始,依次计算每个个体到每个聚类中心的距离;对每一个聚类中的最优个体进行更新;从聚类中随机选择一个个体,生成一个新的个体;随机选择的个体向全局最优个体移动随机长度,随机生成一个新的满足硬件面积约束条件的个体代替该随机选择的个体;一次迭代更新完成;输出最优个体作为最佳软硬件划分方案。本发明通过聚类方式和个体更新方式的改进,有效的提升了每次迭代的效率、避免早熟以及全局寻优能力,使得求解质量以及收敛速度得到了较好的提升。
-
公开(公告)号:CN112185419A
公开(公告)日:2021-01-05
申请号:CN202011055692.1
申请日:2020-09-30
Applicant: 天津大学
IPC: G10L25/51 , G10L25/03 , G10L25/27 , G10L25/30 , G01N29/04 , G01N29/44 , G01N29/46 , G06N3/04 , G06N3/08 , G06N3/00 , G06N20/00
Abstract: 一种基于机器学习的玻璃瓶裂纹检测方法:采用拾音器采集金属棒敲击待检测的玻璃瓶瓶身产生的声音信号;对采集得到的声音信号进行特征提取,提取声音信号的传统特征、短时特征和时频特征三大类特征,得初始特征集;采用混洗蛙跳算法对初始特征集进行特征选择,得到最优特征子集;将最优特征子集作为BPNN的输入,进行BPNN训练得到模型参数,然后根据BPNN的输出判断玻璃瓶是否存在裂纹,最终得到裂纹检测结果;根据裂纹检测结果,采用剔除设备剔除存在裂纹的玻璃瓶。本发明提出的玻璃瓶裂纹检测具有检测精度高、效率高的特点。
-
公开(公告)号:CN117975982B
公开(公告)日:2024-06-04
申请号:CN202410385460.4
申请日:2024-04-01
Applicant: 天津大学
Abstract: 本发明提供了一种基于G‑LPC的病理嗓音增强方法及装置,方法包括:输入正常嗓音音频数据和病理嗓音音频数据,对正常嗓音音频数据和病理嗓音音频数据进行截断处理,对正常嗓音音频数据和病理嗓音音频数据进行预处理操作;使用Gammatone滤波器组对预处理的正常嗓音音频数据和病理嗓音音频数据进行Gammatone逐个频段的滤波,获得从低频到高频呈不同频段分布的嗓音滤波信号;对嗓音滤波信号进行MCS参数计算,计算MCS参数的均值,得到低于MCS均值的信号索引;采用LPC交叉合成算法对低于MCS均值的病理嗓音音频数据进行增强修复。本发明的方法在保留原发声者个性化特征同时,提升受损语音的可懂度。
-
公开(公告)号:CN110046655B
公开(公告)日:2023-03-31
申请号:CN201910235050.0
申请日:2019-03-26
Applicant: 天津大学
IPC: G06F18/214 , G06F18/24
Abstract: 一种基于集成学习的音频场景识别方法,包括:将单声道音频信号、左右声道音频信号、中央边侧声道音频信号分别作为三组训练集;对三组训练集分别进行音频特征提取,分别用于训练三个分类器网路;将训练集的音频特征作为分类器网络的输入,训练分类器网络,在已有的测试集中根据分类器网络的输出结果识别音频场景;将三个分类器网络进行集成学习,根据集成学习后的输出去识别音频场景。本发明相比于单个分类器网络的准确率,平均提升了9.3%。很好的解决了单个分类器网络的学习能力和泛化能力不足的问题,可以对整个数据集中的复杂音频进行全面的建模。能够得到高性能的音频场景识别系统。
-
公开(公告)号:CN114822567B
公开(公告)日:2022-09-27
申请号:CN202210707979.0
申请日:2022-06-22
Applicant: 天津大学
Abstract: 本发明提供了一种基于能量算子的病理嗓音频谱重构方法,包括病理嗓音信号基频自适应加窗、计算功率谱、重构功率谱、功率谱的频域平滑处理、计算功率倒频谱、同态滤波以及计算频谱包络。本发明公开的一种基于能量算子的病理嗓音频谱重构方法,改善了病理嗓音频谱分量过于分散的问题,能够有效提取嗓音的主要信息、频谱分量和峰值,获得重构的病理嗓音频谱包络,解决了传统嗓音分析方法对病理嗓音的参数提取总是失效的问题。