-
公开(公告)号:CN111986699A
公开(公告)日:2020-11-24
申请号:CN202010824598.1
申请日:2020-08-17
申请人: 西安电子科技大学
摘要: 本发明公开了一种基于全卷积神经网络的声音事件检测方法,主要解决现有网络存在的多音频事件检测精度低,时间复杂度高的问题。其实现方案是:1)对音频流进行梅尔倒谱特征提取得到音频流的时频特征图,并用这些时频特征图构成训练数据集;2)搭建一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络;3)利用数据集对该全卷积多音频事件检测网络进行训练;4)将待检测音频流输入到训练好的全卷积多音频事件检测网络进行多音频事件检测,得到音频事件的类别和存在的起止时间。仿真结果表明,本发明比现有精度最高的网络3D-CRNN,其精度提升了2%,运行速度提升了5倍左右,可用于安全监控。
-
公开(公告)号:CN111986699B
公开(公告)日:2023-07-04
申请号:CN202010824598.1
申请日:2020-08-17
申请人: 西安电子科技大学
IPC分类号: G10L25/51 , G10L25/18 , G10L25/24 , G10L25/30 , G06F18/24 , G06N3/0464 , G06N3/048 , G06N3/08
摘要: 本发明公开了一种基于全卷积神经网络的声音事件检测方法,主要解决现有网络存在的多音频事件检测精度低,时间复杂度高的问题。其实现方案是:1)对音频流进行梅尔倒谱特征提取得到音频流的时频特征图,并用这些时频特征图构成训练数据集;2)搭建一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络;3)利用数据集对该全卷积多音频事件检测网络进行训练;4)将待检测音频流输入到训练好的全卷积多音频事件检测网络进行多音频事件检测,得到音频事件的类别和存在的起止时间。仿真结果表明,本发明比现有精度最高的网络3D‑CRNN,其精度提升了2%,运行速度提升了5倍左右,可用于安全监控。
-