发明公开
- 专利标题: 一种基于KL散度的音频特征提取方法
- 专利标题(英): Audio feature extraction method based on KL divergence
-
申请号: CN201810930863.7申请日: 2018-08-15
-
公开(公告)号: CN109036382A公开(公告)日: 2018-12-18
- 发明人: 杨玉红 , 张会玉 , 冯佳倩 , 胡瑞敏 , 艾浩军 , 涂卫平 , 王晓晨
- 申请人: 武汉大学
- 申请人地址: 湖北省武汉市武昌区珞珈山武汉大学
- 专利权人: 武汉大学
- 当前专利权人: 武汉大学
- 当前专利权人地址: 湖北省武汉市武昌区珞珈山武汉大学
- 代理机构: 武汉科皓知识产权代理事务所
- 代理商 魏波
- 主分类号: G10L15/02
- IPC分类号: G10L15/02 ; G10L25/21 ; G10L25/30
摘要:
本发明公开了一种基于KL散度的音频特征提取方法,包括:按类读取训练集中的音频文件,然后转化成对应的功率谱,计算得到训练集中不同声学场景的类间KL散度矩阵,划分KL滤波器的频率群,设计出KL滤波器;将训练集的功率谱通过KL滤波器,提取出基于类间KL散度的频谱特征;将KL频谱特征取对数并归一化后输入到卷积神经网络进行训练得到声学模型;读取测试集的音频文件,然后转化成对应的功率谱,通过KL滤波器提取出测试集对应的KL频谱特征;将测试集的KL频谱特征输入训练好的声学模型进行测试和评估,得到最终的声场景分类模型准确率。本发明应用到其他声场景分类事件中,可得到比传统的基于人耳的Mel特征提取方法更好的性能。
公开/授权文献
- CN109036382B 一种基于KL散度的音频特征提取方法 公开/授权日:2020-06-09