-
公开(公告)号:CN102013253B
公开(公告)日:2012-06-06
申请号:CN200910172875.9
申请日:2009-09-07
申请人: 株式会社东芝
摘要: 本发明涉及一种基于语音单元语速的差异的语音识别方法,其包括:对所输入的语音进行预处理;提取所述语音的声学特征;基于预先训练的声学模型和所提取的所述语音的声学特征,对所述语音进行解码,以获得所述语音的多个识别结果候选,其中所述多个识别结果候选的每一个具有声学得分以及所包含的语音单元的段长;对于所述多个识别结果候选的每一个,基于所包含的语音单元的段长,计算该识别结果候选的语音单元语速差异值;基于所计算的语音单元语速差异值和声学得分,计算该识别结果候选的综合得分;以及从所述多个识别结果候选中选择所述综合得分最高的识别结果候选,作为所述语音的最终识别结果。此外,本发明还提供了相应的语音识别系统。
-
公开(公告)号:CN101154383B
公开(公告)日:2010-10-06
申请号:CN200610141240.9
申请日:2006-09-29
申请人: 株式会社东芝
摘要: 本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。
-
公开(公告)号:CN101154383A
公开(公告)日:2008-04-02
申请号:CN200610141240.9
申请日:2006-09-29
申请人: 株式会社东芝
摘要: 本发明提供了噪声抑制方法,提取语音特征的方法,语音识别方法和训练语音模型的方法,以及噪声抑制装置,提取语音特征的装置,语音识别装置和训练语音模型的装置。根据本发明的一个方面,提供了一种用于含噪声语音谱的噪声抑制方法,包括:根据噪声估计谱,对所述含噪声语音谱进行对数谱最小均方误差估计,以降低所述含噪声语音谱的噪声;其中,通过以下步骤计算增益函数来进行所述对数谱最小均方误差估计:利用泰勒级数累加计算所述增益函数;利用数值积分计算所述增益函数;以及合并所述泰勒级数累加的结果和所述数值积分的结果。
-
公开(公告)号:CN102479510A
公开(公告)日:2012-05-30
申请号:CN201010561793.6
申请日:2010-11-24
申请人: 株式会社东芝
CPC分类号: G10L15/06 , G10L15/142 , G10L2015/0635
摘要: 本发明提供了用于生成语音标签的方法和装置。本发明的一种用于生成语音标签的装置,包括:输入单于,其输入注册语音;识别单元,其对上述注册语音进行识别,得到N个最优的识别结果,其中N是大于等于2的整数;以及合并单元,其将上述N个最优的识别结果合并为上述注册语音的语音标签。
-
公开(公告)号:CN102013253A
公开(公告)日:2011-04-13
申请号:CN200910172875.9
申请日:2009-09-07
申请人: 株式会社东芝
摘要: 本发明涉及一种基于语音单元语速的差异的语音识别方法,其包括:对所输入的语音进行预处理;提取所述语音的声学特征;基于预先训练的声学模型和所提取的所述语音的声学特征,对所述语音进行解码,以获得所述语音的多个识别结果候选,其中所述多个识别结果候选的每一个具有声学得分以及所包含的语音单元的段长;对于所述多个识别结果候选的每一个,基于所包含的语音单元的段长,计算该识别结果候选的语音单元语速差异值;基于所计算的语音单元语速差异值和声学得分,计算该识别结果候选的综合得分;以及从所述多个识别结果候选中选择所述综合得分最高的识别结果候选,作为所述语音的最终识别结果。此外,本发明还提供了相应的语音识别系统。
-
公开(公告)号:CN101465122A
公开(公告)日:2009-06-24
申请号:CN200710199194.2
申请日:2007-12-20
申请人: 株式会社东芝
CPC分类号: G10L21/0208
摘要: 本发明提供了一种语音的频谱波峰的检测方法和装置以及语音识别方法和系统。该检测语音的频谱波峰的方法包括:从上述语音的功率谱中检测出语音频谱波峰候选;以及根据波峰间距和/或相邻帧的波峰位置,去除上述语音频谱波峰候选中的噪声波峰,以检测出语音频谱波峰。在本发明中,通过在语音频谱波峰的检测中利用波峰间距以及相邻帧的限制去除噪声波峰,能够得到可靠的语音频谱波峰。进而,通过将所得到的语音频谱波峰的能量值代替整个功率谱用于提取语音的梅尔倒谱系数特征,能够在不增加语音特征维数的情况下提高语音识别的抗噪稳健性。
-
公开(公告)号:CN102651218A
公开(公告)日:2012-08-29
申请号:CN201110046560.7
申请日:2011-02-25
申请人: 株式会社东芝
CPC分类号: G10L15/32 , G10L15/063 , G10L15/12 , G10L15/142
摘要: 本发明涉及一种用于创建语音标签的方法以及设备。该方法可以包括:基于隐马尔科夫模型HMM针对注册语音生成第一语音标签;基于模板匹配针对所述注册语音生成第二语音标签;以及组合所述第一语音标签和所述第二语音标签以生成所述注册语音的语音标签。基于本发明的实施例生成的语音标签结合了两种标签的优势,明显提高了系统性能。此外,本发明实施例的方法仍然可以应用在基于HMM声学模型的解码器中而无需显著增加存储空间以及计算量,有利于该方法在任意基于HMM的语音标签系统中的应用。
-
公开(公告)号:CN102439660A
公开(公告)日:2012-05-02
申请号:CN201080001519.1
申请日:2010-06-29
申请人: 株式会社东芝
CPC分类号: G10L15/06 , G10L15/187
摘要: 本发明提供一种基于置信度得分的语音标签方法和装置。该基于置信度得分的语音标签方法包括:对于注册语音进行音素识别,以获得该注册语音的多个发音标签;为上述多个发音标签分别计算置信度得分;基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签;以及基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中。本发明在基于多发音注册的语音标签技术中,基于置信度得分来优化语音标签,以减小包含语音标签的识别网络的混淆度。
-
-
-
-
-
-
-