-
公开(公告)号:CN101645270A
公开(公告)日:2010-02-10
申请号:CN200810239818.3
申请日:2008-12-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/28
Abstract: 本发明涉及一种双向语音识别处理系统及方法,该系统包括:特征提取器、前向语音识别器、后向语音识别器、识别结果反向器及识别结果融合器。该系统及方法,其框架是基于同一知识源的双向语音识别解码完成,在前后双向的语音识别过程中分别得到相应的语音请求识别文本,将不同解码方向的语音请求识别结果融合处理得到语音搜索系统前端的文本请求。本发明的双向语音识别解码系统及方法,在已有的有限的知识源下,通过对双向解码结果的融合,得到更为精确的识别文本;与以往的正向解码方法相比,该方法在有效提高语音识别率的同时,也使语音搜索系统的搜索结果更为准确有效。
-
公开(公告)号:CN101447182B
公开(公告)日:2011-11-09
申请号:CN200810097981.0
申请日:2008-05-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种快速可在线应用的声道长度归整方法,包括如下步骤:1)在训练阶段训练一个与声道长度无关的归整后的声学模型;2)根据不同的归整因子对训练数据分类,训练多类GMM;3)测试时分段在多类GMM打分,快速计算声道长度归整因子;4)根据识别系统的实时性需求选择不同的段数,更新声道长度归整因子;5)用声道长度归整后的声学模型对归整后的声学特征解码。本发明的方法可以根据识别系统对实时性的要求,对测试语音可以选择分段的长度,从而让声道长度归整技术应用于在线的系统中。分段是为了消除判断不准确的静音的影响,又不至于把连续语音按帧拆的太分散而影响声学动态特征差分的值,同时还可以根据段的情况加不同的权重。
-
公开(公告)号:CN1763844A
公开(公告)日:2006-04-26
申请号:CN200410083807.2
申请日:2004-10-18
Applicant: 中国科学院声学研究所 , 北京中科信利通信技术有限公司 , 北京中科信利技术有限公司
Abstract: 本发明提供一种端点检测方法和装置,用于检测具有背景噪音的输入语音信号的语音端点,所述方法包括下列步骤:对输入语音信号施加一个窗口,取一定的帧数目作为窗口大小;确定输入语音信号中的背景噪音开始点并且计算背景噪音能量;计算当前帧的声音能量并且进而计算窗口能量;比较窗口的总声音能量是否大于背景噪音能量和语音开始点信噪比的乘积;如果不是,则窗口向下一帧滑动,并且返回计算当前帧声音能量步骤;如果是,则判断当前帧为语音开始点。本发明的端点检测方法提高端点检测的准确性,改善鲁棒性和提高语音识别系统的总体识别率。本发明的端点检测方法和装置通常应用在语音识别系统中。
-
公开(公告)号:CN101651788B
公开(公告)日:2012-11-21
申请号:CN200810224791.0
申请日:2008-12-26
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: H04N5/278
Abstract: 本发明涉及一种在线语音文本对齐系统及方法,该系统包括:文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。其中,强制对齐模块包括:特征提取模块、搜索空间构建模块和对齐解码模块。其中,错误恢复模块包括:语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块。该系统及方法检测句子末尾的方法是传统的基于维特比对齐的方法的改进,通过利用束搜索的搜索空间的信息,估计句尾搜索空间的活跃程度A(t,swe),估计在局部意义下的句子末尾时间本系统及方法具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能;可以实时的产生在线输入语音流和对应的文本的对齐结果,并能够处理带错误的长文本。
-
公开(公告)号:CN1750121A
公开(公告)日:2006-03-22
申请号:CN200410074445.0
申请日:2004-09-16
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
Abstract: 本发明公开了一种基于语音识别及语音分析的发音评估方法,包括以下步骤:选取输入的原始语音信号,采集并转换为数字信号,然后进行分帧处理;提取语音帧的特征参数;利用语音识别引擎对该输入语音进行识别,得到每个单词(字)或/及音节的分段信息,并计算出每个单词或单字的置信度;根据每个单词(字)或/及音节的置信度,对该输入语音中每个单词(字)或/音节的发音真实度进行评估。进一步,可以同时计算出每一语音频的时长、能量和频率信息,并与标准发音库对应的信息相比较,计算出每个单词(字)或/和音节的相似度,和置信度一起加权得到发音真实度。本发明可以评估的单位精确到每个字,每个音节,大大提高发音评估的精确度和效果。
-
公开(公告)号:CN101118745B
公开(公告)日:2011-01-19
申请号:CN200610089135.5
申请日:2006-08-04
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种用于语音识别系统的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据状态图、声学模型和该帧语音的特征向量,计算每一帧语音对应于状态图中每一个状态的似然概率p(xt/sj);按照帧号和状态号存储似然概率p(xt/sj);根据似然概率p(xt/sj)对状态进行剪枝;计算剪枝后声学空间的似然概率和以及广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。现有技术中,需要在进行音素搜索得到音素候选后,为计算置信度再使用不同的声学模型进行第二次搜索,而本发明是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用相同的声学模型计算置信度,因此只需进行一次搜索,节省了系统的运行时间和计算的复杂度。
-
公开(公告)号:CN1763844B
公开(公告)日:2010-05-05
申请号:CN200410083807.2
申请日:2004-10-18
Applicant: 中国科学院声学研究所 , 北京中科信利通信技术有限公司 , 北京中科信利技术有限公司
Abstract: 本发明提供一种端点检测方法和装置,用于检测具有背景噪音的输入语音信号的语音端点,所述方法包括下列步骤:对输入语音信号施加一个窗口,取一定的帧数目作为窗口大小;确定输入语音信号中的背景噪音开始点并且计算背景噪音能量;计算当前帧的声音能量并且进而计算窗口能量;比较窗口的总声音能量是否大于背景噪音能量和语音开始点信噪比的乘积;如果不是,则窗口向下一帧滑动,并且返回计算当前帧声音能量步骤;如果是,则判断当前帧为语音开始点。本发明的端点检测方法提高端点检测的准确性,改善鲁棒性和提高语音识别系统的总体识别率。本发明的端点检测方法和装置通常应用在语音识别系统中。
-
公开(公告)号:CN101447182A
公开(公告)日:2009-06-03
申请号:CN200810097981.0
申请日:2008-05-21
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种快速可在线应用的声道长度归整方法,包括如下步骤:1)在训练阶段训练一个与声道长度无关的归整后的声学模型;2)根据不同的归整因子对训练数据分类,训练多类GMM;3)测试时分段在多类GMM打分,快速计算声道长度归整因子;4)根据识别系统的实时性需求选择不同的段数,更新声道长度归整因子;5)用声道长度归整后的声学模型对归整后的声学特征解码。本发明的方法可以根据识别系统对实时性的要求,对测试语音可以选择分段的长度,从而让声道长度归整技术应用于在线的系统中。分段是为了消除判断不准确的静音的影响,又不至于把连续语音按帧拆的太分散而影响声学动态特征差分的值,同时还可以根据段的情况加不同的权重。
-
公开(公告)号:CN1753083A
公开(公告)日:2006-03-29
申请号:CN200410078336.6
申请日:2004-09-24
Applicant: 中国科学院声学研究所 , 北京中科信利通信技术有限公司 , 北京中科信利技术有限公司
Abstract: 在根据本发明的语音标记方法中,首先在语音注册阶段,采用由语音识别技术发展而成的语音标记算法,将用户注册时的语音转换成文本进行存储。这样,对于所有待识别的词汇,只需要建立一个识别词表的数据库。在进行识别时,对于用户的发音,按照通用的语音识别系统的流程来进行识别,即提取语音的特征,利用识别词表的信息建立识别语法,基于识别语法和声学模型,对于待识别语音的特征序列在整个候选空间中进行搜索匹配,寻找匹配概率最大的词作为识别结果。本发明还提供了相应的语音标记系统以及采用语音标记的语音识别方法和系统。通过本发明的语音标记方法和系统,能够显著提高语音识别系统的准确度、适应性和灵活性,降低系统所需的存储空间。
-
公开(公告)号:CN1753083B
公开(公告)日:2010-05-05
申请号:CN200410078336.6
申请日:2004-09-24
Applicant: 中国科学院声学研究所 , 北京中科信利通信技术有限公司 , 北京中科信利技术有限公司
Abstract: 在根据本发明的语音标记方法中,首先在语音注册阶段,采用由语音识别技术发展而成的语音标记算法,将用户注册时的语音转换成文本进行存储。这样,对于所有待识别的词汇,只需要建立一个识别词表的数据库。在进行识别时,对于用户的发音,按照通用的语音识别系统的流程来进行识别,即提取语音的特征,利用识别词表的信息建立识别语法,基于识别语法和声学模型,对于待识别语音的特征序列在整个候选空间中进行搜索匹配,寻找匹配概率最大的词作为识别结果。本发明还提供了相应的语音标记系统以及采用语音标记的语音识别方法和系统。通过本发明的语音标记方法和系统,能够显著提高语音识别系统的准确度、适应性和灵活性,降低系统所需的存储空间。
-
-
-
-
-
-
-
-
-