发明公开
- 专利标题: 一种基于瓶颈特征的复杂音频分割聚类方法
- 专利标题(英): Complex audio segmentation clustering method based on bottleneck feature
-
申请号: CN201710101550.6申请日: 2017-02-24
-
公开(公告)号: CN106952644A公开(公告)日: 2017-07-14
- 发明人: 李艳雄 , 王琴 , 李先苦 , 张雪 , 张聿晗
- 申请人: 华南理工大学
- 申请人地址: 广东省广州市天河区五山路381号
- 专利权人: 华南理工大学
- 当前专利权人: 华南理工大学
- 当前专利权人地址: 广东省广州市天河区五山路381号
- 代理机构: 广州市华学知识产权代理有限公司
- 代理商 李斌
- 主分类号: G10L15/04
- IPC分类号: G10L15/04 ; G10L15/26 ; G10L25/24 ; G10L25/30 ; G10L25/51 ; G06F17/30
摘要:
本发明公开了一种基于瓶颈特征的复杂音频分割聚类方法,包括如下步骤,首先构造一个带瓶颈层的深度神经网络;接着读入复杂音频流,对复杂音频流进行端点检测,然后提取非静音段的音频特征并输入深度神经网络,从深度神经网络的瓶颈层提取瓶颈特征;以瓶颈特征作为输入,采用基于贝叶斯信息准则的音频分割方法,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;最后,采用谱聚类算法对分割后的音频段进行聚类,得到复杂音频的音频类型个数,并将相同音频类型的音频段合并在一起。本发明采用的瓶颈特征是一种深层变换特征,比传统音频特征能更有效刻画复杂音频类型的特性差异,在复杂音频分割聚类中获得更加优异的效果。