一种基于字典学习和低秩矩阵分解的说话人识别方法

发明授权

CN110265039B 一种基于字典学习和低秩矩阵分解的说话人识别方法有权

请登陆查看更多内容

专利标题： 一种基于字典学习和低秩矩阵分解的说话人识别方法
申请号： CN201910475010.3

申请日： 2019-06-03
公开(公告)号： CN110265039B

公开(公告)日： 2021-07-02
发明人: 王昕 , 李宗晏
申请人： 南京邮电大学
申请人地址： 江苏省南京市鼓楼区新模范马路66号
专利权人： 南京邮电大学
当前专利权人： 南京邮电大学
当前专利权人地址： 江苏省南京市鼓楼区新模范马路66号
代理机构： 南京苏科专利代理有限责任公司
代理商 陈栋智
主分类号： G10L17/04
IPC分类号： G10L17/04 ; G10L17/02 ; G10L17/12

摘要：

本发明提出了一种基于字典学习和低秩矩阵分解的说话人识别方法，包括以下步骤：步骤1，对说话人音频进行预加重、分帧、加窗、端点检测等处理；步骤2，提取出对应每个说话人语句的MFCC特征，并训练GMM‑UBM模型；步骤3，通过联合因子分析（JFA）估算全局差异空间矩阵T，全局差异空间因子w；步骤4，得到对应每个说话人语句的i‑vector；步骤5，从训练集中提取M维度的i‑vector并生成特征矩阵，根据训练集和测试集，对判别字典进行生成，得到的字典将作为i‑vector后端处理和打分模块，为最终判别提供依据；适应字典学习准则的编码系数可以有效提升识别力，并通过结构化稀疏来进行最优分类。

公开/授权文献

CN110265039A 一种基于字典学习和低秩矩阵分解的说话人识别方法公开/授权日：2019-09-20

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L17/00	讲话者辨认或验证
G10L17/04	.训练，登记或模型的建立