一种基于数据增强的声场景辨识方法
摘要:
本发明公开了一种基于数据增强的声场景辨识方法,包括下列步骤:首先采集并标注不同声场景的音频样本;然后预处理,对音频样本进行预加重、分帧和加窗处理;接着进行数据增强,提取各音频样本的谐波源和冲击源,得到更充足的音频样本,从音频样本及其谐波源和冲击源中提取对数梅尔滤波器组特征,再将上述三个特征堆叠成一个三通道的高维特征,接着采用混合增强技术构造更丰富的训练样本;最后将上述三通道高维特征输入到Xception网络进行判决,辨识出各音频样本所对应的声场景。本发明的数据增强方法可以有效提高Xception网络分类器的泛化能力,稳定网络的训练过程。在对声场景进行辨识时,本方法可取得更优的辨识效果。
公开/授权文献
0/0