-
公开(公告)号:CN110827804A
公开(公告)日:2020-02-21
申请号:CN201911111989.2
申请日:2019-11-14
Applicant: 福州大学
Abstract: 本发明涉及一种音频帧序列到事件标签序列的声音事件标注方法,包括如下步骤:步骤S1:从给定音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:根据得到的特征序列,使用三层卷积神经网络提取每帧的抽象特征,并通过双向门限递归单元神经网络提取帧综合特征序列;步骤S3:根据得到的综合特征序列,通过Softmax前馈神经网络层作为注意力机制层,得到注意力特征,并进一步得到事件标签序列;步骤S4:将得到的所有音频片段的声音事件标签序列联合,并进行合并和平滑处理,得到检测结果。本发明使用多任务损失机制,在降低误检测的同时提高事件检出率,改善定位准确度,最后对模型输出进行平滑和合并处理,以显著提高音频文件中声音事件的标注精度。
-
公开(公告)号:CN110827804B
公开(公告)日:2022-06-14
申请号:CN201911111989.2
申请日:2019-11-14
Applicant: 福州大学
Abstract: 本发明涉及一种音频帧序列到事件标签序列的声音事件标注方法,包括如下步骤:步骤S1:从给定音频文件中提取梅尔能量特征,并将其处理成特征序列;步骤S2:根据得到的特征序列,使用三层卷积神经网络提取每帧的抽象特征,并通过双向门限递归单元神经网络提取帧综合特征序列;步骤S3:根据得到的综合特征序列,通过Softmax前馈神经网络层作为注意力机制层,得到注意力特征,并进一步得到事件标签序列;步骤S4:将得到的所有音频片段的声音事件标签序列联合,并进行合并和平滑处理,得到检测结果。本发明使用多任务损失机制,在降低误检测的同时提高事件检出率,改善定位准确度,最后对模型输出进行平滑和合并处理,以显著提高音频文件中声音事件的标注精度。
-