发明公开
- 专利标题: 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
- 专利标题(英): Speaker recognition method based on Gaussian mixture model embedded with time delay neural network
-
申请号: CN200910035424.0申请日: 2009-09-28
-
公开(公告)号: CN102034472A公开(公告)日: 2011-04-27
- 发明人: 戴红霞 , 王吉林 , 余华 , 魏昕 , 赵力
- 申请人: 戴红霞 , 王吉林 , 余华
- 申请人地址: 江苏省无锡市月秀花园39号301室
- 专利权人: 戴红霞,王吉林,余华
- 当前专利权人: 戴红霞,王吉林,余华
- 当前专利权人地址: 江苏省无锡市月秀花园39号301室
- 主分类号: G10L15/00
- IPC分类号: G10L15/00
摘要:
本发明公开了一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法,本发明充分考虑了TDNN和GMM各自的优点,把TDNN嵌入到GMM中,TDNN充分利用了输入特征向量的时序性,并且通过时延网络的变换,求得TDNN输入和输出向量的残差,将该残差通过最大期望方法修正GMM的训练;此外利用修正后的GMM模型参数和残差得到一个似然概率,利用带惯性的向后反演方法修正TDNN参数,从而使得GNN和TDNN的参数交替更新。实验表明,采用本发明的方法在各种信噪比的情况下识别率都比基线GMM有所提高。