发明公开
- 专利标题: 一种基于最大池化自注意力机制的声纹识别方法及系统
-
申请号: CN202211733131.1申请日: 2022-12-30
-
公开(公告)号: CN116072127A公开(公告)日: 2023-05-05
- 发明人: 孙钢 , 沈然 , 沈皓 , 李伊玲 , 汪一帆 , 徐世予 , 章江铭 , 章一新 , 项莹洁 , 佘清顺
- 申请人: 国网浙江省电力有限公司营销服务中心 , 浙江大学
- 申请人地址: 浙江省杭州市余杭区云联路138号5幢;
- 专利权人: 国网浙江省电力有限公司营销服务中心,浙江大学
- 当前专利权人: 国网浙江省电力有限公司营销服务中心,浙江大学
- 当前专利权人地址: 浙江省杭州市余杭区云联路138号5幢;
- 代理机构: 浙江翔隆专利事务所
- 代理商 张建青
- 主分类号: G10L17/18
- IPC分类号: G10L17/18 ; G10L17/04 ; G10L17/02
摘要:
本发明公开了一种基于最大池化自注意力机制的声纹识别方法及系统。本发明的方法包含如下步骤:提取音频特征序列;使用卷积神经网络对音频特征序列进行降采样处理;使用基于最大池化自注意力机制的Transformer编码器进行训练;对Tranformer编码器的输出进行正则化;使用统计注意力聚合的方法提取说话人声纹编码;使用角度原型损失函数最小化训练损失。相比于传统Transformer进行声纹识别,本发明对Transformer的自注意力机制做了改进,在相似度矩阵中引入最大池化操作,提高自注意力机制对局部信息的建模能力;本发明较原始Transformer更适合进行声纹识别,准确率更高。