-
公开(公告)号:CN117831570A
公开(公告)日:2024-04-05
申请号:CN202311755262.4
申请日:2023-12-19
申请人: 华南理工大学
摘要: 本发明公开了一种基于原型分类器的完全小样本类别增量音频分类方法,步骤如下:从输入音频样本提取对数梅尔谱;初始化自注意力卷积神经网络,包括表征提取器、原型分类器和原型自适应模块;基础环节,采用小样本学习和伪增量情境训练方法分别训练表征提取器和原型自适应模块;从基础环节音频类别训练样本提取表征并计算同类别表征均值作为原型并更新原型分类器;在增量环节采用原型自适应模块先获取各增量类原型,然后对所有原型进行自适应调整,再更新原型分类器;测试时,采用所有已知类别测试样本评测模型性能。本发明方法在所有环节都采用小样本学习训练模型,利用较少的训练样本有效解决模型对增量类过拟合和对旧类遗忘的问题。
-
公开(公告)号:CN113823292B
公开(公告)日:2023-07-21
申请号:CN202110954659.0
申请日:2021-08-19
申请人: 华南理工大学
摘要: 本发明公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册(小样本)语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。
-
公开(公告)号:CN109903777B
公开(公告)日:2020-10-27
申请号:CN201910033836.4
申请日:2019-01-15
申请人: 华南理工大学
摘要: 本发明公开了一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,包括以下步骤:对各元音语音样本进行预处理:预加重、加窗分帧;从每个元音语音样本提取梅尔频率倒谱系数特征;为异常说话人和正常说话人的每个元音构建一个高斯混合模型;将各元音高斯混合模型的均值向量拼接成一个行矢量,计算元音谱空间衰减率;如果说话人测试样本的所有元音谱空间衰减率均值小于设定的阈值,则该说话人为异常说话人,否则为正常说话人。本发明利用异常说话人与正常说话人的元音谱空间分布特性差异,在特征层面区分异常说话人与正常说话人,无需构建复杂分类器,与传统区分方法相比,速度更快。
-
公开(公告)号:CN109978034A
公开(公告)日:2019-07-05
申请号:CN201910201430.2
申请日:2019-03-18
申请人: 华南理工大学
IPC分类号: G06K9/62 , G10L21/0208 , G10L25/03 , G10L25/27 , G10L25/45
摘要: 本发明公开了一种基于数据增强的声场景辨识方法,包括下列步骤:首先采集并标注不同声场景的音频样本;然后预处理,对音频样本进行预加重、分帧和加窗处理;接着进行数据增强,提取各音频样本的谐波源和冲击源,得到更充足的音频样本,从音频样本及其谐波源和冲击源中提取对数梅尔滤波器组特征,再将上述三个特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造更丰富的训练样本;最后将上述三通道高维特征输入到Xception网络进行判决,辨识出各音频样本所对应的声场景。本发明的数据增强方法可以有效提高Xception网络分类器的泛化能力,稳定网络的训练过程。在对声场景进行辨识时,本方法可取得更优的辨识效果。
-
公开(公告)号:CN109903777A
公开(公告)日:2019-06-18
申请号:CN201910033836.4
申请日:2019-01-15
申请人: 华南理工大学
摘要: 本发明公开了一种基于元音谱空间衰减率的异常说话人与正常说话人区分方法,包括以下步骤:对各元音语音样本进行预处理:预加重、加窗分帧;从每个元音语音样本提取梅尔频率倒谱系数特征;为异常说话人和正常说话人的每个元音构建一个高斯混合模型;将各元音高斯混合模型的均值向量拼接成一个行矢量,计算元音谱空间衰减率;如果说话人测试样本的所有元音谱空间衰减率均值小于设定的阈值,则该说话人为异常说话人,否则为正常说话人。本发明利用异常说话人与正常说话人的元音谱空间分布特性差异,在特征层面区分异常说话人与正常说话人,无需构建复杂分类器,与传统区分方法相比,速度更快。
-
公开(公告)号:CN108766419A
公开(公告)日:2018-11-06
申请号:CN201810417478.2
申请日:2018-05-04
申请人: 华南理工大学
摘要: 本发明公开了一种基于深度学习的非常态语音区分方法,包括以下步骤,获取输入语音,并对输入语音进行重采样、预加重、分帧加窗预处理,得到预处理语音;对预处理语音提取梅尔频率倒谱系数特征矢量;将不同帧数的语音段规整到固定帧数,每个语音段得到一个对应的梅尔频率倒谱系数特征矩阵;建立卷积深度置信网络;将梅尔频率倒谱系数特征矩阵输入卷积深度置信网络,进行训练,并对输入语音的状态进行分类;根据分类结果,调用隐马尔可夫模型进行模板匹配,得到语音识别结果;本发明利用卷积深度置信网络的多个非线性变换层、将输入的MFCC特征映射到更高维空间,并用隐马尔科夫模型对不同状态的语音分别建模,提高了语音的识别准确性。
-
公开(公告)号:CN108694951A
公开(公告)日:2018-10-23
申请号:CN201810493026.2
申请日:2018-05-22
申请人: 华南理工大学
摘要: 本发明公开了一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,步骤如下:首先从语音样本中提取Filterbank特征和梅尔频率倒谱系数特征,分别作为两个特征流;将这两个特征流分别输入两个带瓶颈层的深度置信网络进行特征变换,得到两个瓶颈特征流;然后将这两个瓶颈特征流拼接起来并输入第三个带瓶颈层的深度置信网络进行特征变换,从而得到融合变换后的特征;最后,采用长短时记忆网络作为分类器判断语音样本属于哪一个说话人。本发明采用多个深度置信网络对输入声学特征进行融合变换,相比于单个声学特征及单个神经网络变换后的特征能更有效刻画不同说话人的特性差异,在说话人辨识中可以获得更加优异的效果。
-
公开(公告)号:CN108182949A
公开(公告)日:2018-06-19
申请号:CN201711305135.9
申请日:2017-12-11
申请人: 华南理工大学
摘要: 本发明公开了一种基于深度变换特征的高速公路异常音频事件分类方法,首先采集高速公路异常音频事件样本,然后划分为训练集和测试集;接着分别对训练集和测试集音频事件样本进行预加重、分帧、加窗处理,且取前后2帧构成上下文音频数据块;从上述音频数据块中提取声学特征拼接成特征矢量;将特征矢量输入深度自编码网络提取深度变换特征;然后输入长短时记忆网络分类器,辨识各类异常音频事件。上述深度自编码网络特征提取器与长短时记忆网络分类器都包括训练步骤和测试步骤。本发明采用的深度变换特征是各传统声学特征的融合与变换,具有更好的区分性和鲁棒性,在对高速公路复杂音频中的异常音频事件进行分类时能取得更佳的分类效果。
-
公开(公告)号:CN107301858A
公开(公告)日:2017-10-27
申请号:CN201710398853.9
申请日:2017-05-31
申请人: 华南理工大学
摘要: 本发明公开一种基于音频特征空间分层描述的音频分类方法,步骤为:通过考察各音频类型GMM模型高斯空间分布之间的重叠程度,将重叠度大的不同类型的高斯分布进行合并,构建音频特征空间描述子;音频类型对区分子模型:根据音频特征空间描述子的构成信息,筛选出音频类型对的非重叠空间描述子以及重叠度小的描述子,然后利用所筛选出的区分描述子构建音频类型对的区分子模型;复杂音频类型的子类型模型采用UBM-GMM的方法;一个音频样本分别从音频特征空间、音频类型空间、音频类型子空间三个层次进行评价,并辅以音频类型对区分子模型评价构建识别方法。本发明既结合传统高斯混合模型的优点,又能很好地对复杂音频进行区分,能较大提高音频分类的准确率。
-
-
-
-
-
-
-
-