-
公开(公告)号:CN117851936A
公开(公告)日:2024-04-09
申请号:CN202410026085.4
申请日:2024-01-08
Applicant: 湖南大学
IPC: G06F18/2431 , G10L25/30 , G10L25/48 , G06F18/25 , G06N3/0464 , G06N3/09
Abstract: 本发明提供了一种基于多维加权融合的声学场景分类网络模型,声学场景特征提取模块逐层提取音频中的特征并输出至多维特征加权融合模块;多维特征加权融合模块中设置有一个可学习权重参数,对输入的特征进行逐元素线性插值运算,将不同维度的特征相互融合并输出至分类模块;分类模块将输出网络模型的预测结果。本发明声学场景分类网络模型中通过使用反向可分离卷积层代替传统标准卷积层,大幅度减少网络模型的参数量和运算次数,并通过在逐元素相加特征融合中引入一个可学习参数,以此使网络模型能在训练过程中自动调节不同维度特征所占的比重,最终目的是使网络模型能满足实际应用的需要和提升网络模型的分类准确率。