一种基于最大池化自注意力机制的声纹识别方法及系统

Invention Publication

CN116072127A 一种基于最大池化自注意力机制的声纹识别方法及系统审中-实审

Please log in to see more content

Patent Title: 一种基于最大池化自注意力机制的声纹识别方法及系统
Application No.: CN202211733131.1

Application Date: 2022-12-30
Publication No.: CN116072127A

Publication Date: 2023-05-05
Inventor: 孙钢 , 沈然 , 沈皓 , 李伊玲 , 汪一帆 , 徐世予 , 章江铭 , 章一新 , 项莹洁 , 佘清顺
Applicant: 国网浙江省电力有限公司营销服务中心 , 浙江大学
Applicant Address: 浙江省杭州市余杭区云联路138号5幢;
Assignee: 国网浙江省电力有限公司营销服务中心,浙江大学
Current Assignee: 国网浙江省电力有限公司营销服务中心,浙江大学
Current Assignee Address: 浙江省杭州市余杭区云联路138号5幢;
Agency: 浙江翔隆专利事务所
Agent 张建青
Main IPC: G10L17/18
IPC: G10L17/18 ; G10L17/04 ; G10L17/02

Abstract:

本发明公开了一种基于最大池化自注意力机制的声纹识别方法及系统。本发明的方法包含如下步骤：提取音频特征序列；使用卷积神经网络对音频特征序列进行降采样处理；使用基于最大池化自注意力机制的Transformer编码器进行训练；对Tranformer编码器的输出进行正则化；使用统计注意力聚合的方法提取说话人声纹编码；使用角度原型损失函数最小化训练损失。相比于传统Transformer进行声纹识别，本发明对Transformer的自注意力机制做了改进，在相似度矩阵中引入最大池化操作，提高自注意力机制对局部信息的建模能力；本发明较原始Transformer更适合进行声纹识别，准确率更高。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L17/00	讲话者辨认或验证
G10L17/18	.人工神经网络，连接方法