一种基于瓶颈特征的复杂音频分割聚类方法
摘要:
本发明公开了一种基于瓶颈特征的复杂音频分割聚类方法,包括如下步骤,首先构造一个带瓶颈层的深度神经网络;接着读入复杂音频流,对复杂音频流进行端点检测,然后提取非静音段的音频特征并输入深度神经网络,从深度神经网络的瓶颈层提取瓶颈特征;以瓶颈特征作为输入,采用基于贝叶斯信息准则的音频分割方法,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;最后,采用谱聚类算法对分割后的音频段进行聚类,得到复杂音频的音频类型个数,并将相同音频类型的音频段合并在一起。本发明采用的瓶颈特征是一种深层变换特征,比传统音频特征能更有效刻画复杂音频类型的特性差异,在复杂音频分割聚类中获得更加优异的效果。
0/0