一种基于度量学习的环境声音分类方法及系统

    公开(公告)号:CN119296550A

    公开(公告)日:2025-01-10

    申请号:CN202411417307.1

    申请日:2024-10-11

    Abstract: 本发明公开了一种基于度量学习的环境声音分类方法及系统,该方法包括如下步骤:收集环境声音音频,并转化为梅尔频谱图;对梅尔频谱图进行数据增强;构建SPA模块和FPL模块,使用SPA模块或FPL模块对数据增强后的环境声音音频进行处理,采用预训练的卷积神经网络模型对处理后的环境声音音频进行特征提取,得到声音特征;将提取的声音特征输入到表征空间;在表征空间中结合对比、度量学习和交叉熵损失来优化声音特征,对优化后的声音特征进行分类;本发明通过利用度量学习考虑类内变异的方法,使得在进行分类任务的过程中,同类样本的特征更加接近,不同类样本的特征更加分离,有效提高了分类准确率。

Patent Agency Ranking