一种基于最大池化自注意力机制的声纹识别方法及系统
摘要:
本发明公开了一种基于最大池化自注意力机制的声纹识别方法及系统。本发明的方法包含如下步骤:提取音频特征序列;使用卷积神经网络对音频特征序列进行降采样处理;使用基于最大池化自注意力机制的Transformer编码器进行训练;对Tranformer编码器的输出进行正则化;使用统计注意力聚合的方法提取说话人声纹编码;使用角度原型损失函数最小化训练损失。相比于传统Transformer进行声纹识别,本发明对Transformer的自注意力机制做了改进,在相似度矩阵中引入最大池化操作,提高自注意力机制对局部信息的建模能力;本发明较原始Transformer更适合进行声纹识别,准确率更高。
0/0