一种噪声环境下说话人识别模型构建方法

发明授权

请登陆查看更多内容

专利标题： 一种噪声环境下说话人识别模型构建方法
申请号： CN202210734918.3

申请日： 2022-06-21
公开(公告)号： CN115116446B

公开(公告)日： 2024-11-01
发明人: 张葛祥 , 陈柯屹 , 董建平 , 方祖林 , 肖东洋 , 罗标 , 杨强
申请人： 成都理工大学
申请人地址： 四川省成都市成华区二仙桥东三路1号
专利权人： 成都理工大学
当前专利权人： 成都理工大学
当前专利权人地址： 四川省成都市成华区二仙桥东三路1号
代理机构： 成都盈信专利代理事务所
代理商 崔建中
主分类号： G10L17/02
IPC分类号： G10L17/02 ; G10L17/04 ; G10L17/18 ; G10L21/0232

摘要：

本发明公开了一种噪声环境下说话人识别模型构建方法，在说话人识别网络前端增加一个去噪模块，使用改进的谱减法对带噪语音进行去噪。针对谱减法的两个参数(过减因子α和谱下限参数β)，使用梯度下降的方法由神经网络动态调整两个参数的值，保留更符合说话人识别任务的语音信息，从而提高了噪声环境下说话人识别的准确率。带噪语音信号选择变窗长的窗函数进行短时傅里叶变换，可以防止频谱泄露说话人识别任务需要的说话人信息。

公开/授权文献

CN115116446A 一种噪声环境下说话人识别模型构建方法公开/授权日：2022-09-27

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L17/00	讲话者辨认或验证
G10L17/02	.预处理操作，例如：片断选择；模式表示或模拟，例如基于线性判别式分析(LDA)或主要部件；特征选择或提取