基于bottleneck和通道切分的轻量级说话人识别方法及系统

发明授权

CN114220438B 基于bottleneck和通道切分的轻量级说话人识别方法及系统有权

请登陆查看更多内容

专利标题： 基于bottleneck和通道切分的轻量级说话人识别方法及系统
申请号： CN202210160392.2

申请日： 2022-02-22
公开(公告)号： CN114220438B

公开(公告)日： 2022-05-13
发明人: 蔡林君 , 杨玉红 , 陈旭峰 , 陈弘扬 , 涂卫平 , 艾浩军
申请人： 武汉大学
申请人地址： 湖北省武汉市武昌区珞珈山武汉大学
专利权人： 武汉大学
当前专利权人： 武汉大学
当前专利权人地址： 湖北省武汉市武昌区珞珈山武汉大学
主分类号： G10L17/02
IPC分类号： G10L17/02 ; G10L17/04 ; G10L17/18

摘要：

本发明提供一种基于bottleneck和通道切分的轻量级说话人识别方法及系统，基于bottleneck和通道切分构建基于深度神经网络的说话人识别模型，所述说话人识别模型的网络框架包括轻量级说话人识别网络主体和说话人识别模型池化模块，语音特征首先作为轻量级说话人识别网络主体的输入，输出为不定长的特征，将其作为说话人识别模型池化模块处理后，生成定长的说话人嵌入；使用知识蒸馏进一步提高模型准确率，包括对基于说话人识别模型实现的教师模型进行预训练，定义知识蒸馏的损失函数，使用知识蒸馏训练轻量级的学生网络模型，根据训练结果实现说话人识别。与现有技术相比，本发明可以解决在小型的算力非常有限的嵌入式设备应用场景下的说话人识别任务。

公开/授权文献

CN114220438A 基于bottleneck和通道切分的轻量级说话人识别方法及系统公开/授权日：2022-03-22

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L17/00	讲话者辨认或验证
G10L17/02	.预处理操作，例如：片断选择；模式表示或模拟，例如基于线性判别式分析(LDA)或主要部件；特征选择或提取