基于音素混淆的中英文双语语音识别方法

    公开(公告)号:CN101447184B

    公开(公告)日:2011-07-27

    申请号:CN200810110555.6

    申请日:2008-06-03

    Abstract: 本发明涉及一种基于音素混淆的中英文双语语音识别方法,该方法采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能,具有很高的实用性。

    一种浅层自然口语理解系统及方法

    公开(公告)号:CN101645064B

    公开(公告)日:2011-04-06

    申请号:CN200810239727.X

    申请日:2008-12-16

    Abstract: 本发明涉及一种浅层自然口语理解系统及方法,该系统包括:预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Viterbi搜索模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征;采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类标记序列中提取出命名实体。本发明的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。

    一种在线语音文本对齐系统及方法

    公开(公告)号:CN101651788A

    公开(公告)日:2010-02-17

    申请号:CN200810224791.0

    申请日:2008-12-26

    Abstract: 本发明涉及一种在线语音文本对齐系统及方法,该系统包括:文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。其中,强制对齐模块包括:特征提取模块、搜索空间构建模块和对齐解码模块。其中,错误恢复模块包括:语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块。该系统及方法检测句子末尾的方法是传统的基于维特比对齐的方法的改进,通过利用束搜索的搜索空间的信息,估计句尾搜索空间的活跃程度A(t,sωe),估计在局部意义下的句子末尾时间*。本系统及方法具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能;可以实时的产生在线输入语音流和对应的文本的对齐结果,并能够处理带错误的长文本。

    一种语种识别系统及方法
    125.
    发明公开

    公开(公告)号:CN101645269A

    公开(公告)日:2010-02-10

    申请号:CN200810247575.8

    申请日:2008-12-30

    Abstract: 本发明涉及一种语种识别系统及方法,该系统包括:预处理和特征提取模块、生成性音子序列解码模块、N元文法语言语法模型模块及分类器。生成性音子序列解码模块包括:混合高斯模型训练模块、混合高斯模型解码模块及序列平滑模块。该系统及方法将训练语种语音数据通过EM迭代准则,训练生成与该语种数据相对应的混合高斯模型,并根据该混合高斯模型对输入语音的特征进行识别,产生音子序列。本发明的系统及方法利用基于混合高斯模型的生成性音子序列解码模块,避免PPRLM系统中前端音子识别器所需要的大量计算,实现在不损失检测精度的基础上识别速度大幅提高;使用平滑策略,使语音序列具有明显的短时稳定性。

    一种基于小型麦克风阵列的定向语音增强方法

    公开(公告)号:CN101587712A

    公开(公告)日:2009-11-25

    申请号:CN200810112195.3

    申请日:2008-05-21

    Inventor: 颜永红 付强 张恒

    Abstract: 本发明提供一种基于小型麦克风阵列的定向语音增强方法,包括如下步骤:1)利用两个全指向性麦克风采集声音信号;2)利用自适应谷点形成算法,对所采集到声音信号进行数据处理,得到延迟相减信号x(t)和自适应滤波后的信号z(t);3)对x(t)和z(t)进行处理分别形成语谱X(ω)和Z(ω);4)根据X(ω)和Z(ω),利用单通道语音增强方法计算出初步增益G′(ω);根据X(ω)和Z(ω),计算出目标信号存在概率P(ω);5)利用所述目标信号存在概率P(ω),对初步增益G′(ω)进行修正,得出最终增益G(ω),,其中Gm为预设的增益最小值;6)利用最终增益G(ω),对自适应滤波后的信号z(t)进行增强,得到最终的增强语音信号r(t)。本发明能够在很小的体积内,实现定向语音增强算法;并且能够获得更大程度的抑制噪声,提高信噪比。

    一种基于语音识别及语音分析的发音评估方法

    公开(公告)号:CN100514446C

    公开(公告)日:2009-07-15

    申请号:CN200410074445.0

    申请日:2004-09-16

    Abstract: 本发明公开了一种基于语音识别及语音分析的发音评估方法,包括以下步骤:选取输入的原始语音信号,采集并转换为数字信号,然后进行分帧处理;提取语音帧的特征参数;利用语音识别引擎对该输入语音进行识别,得到每个单词(字)或/及音节的分段信息,并计算出每个单词或单字的置信度;根据每个单词(字)或/及音节的置信度,对该输入语音中每个单词(字)或/音节的发音真实度进行评估。进一步,可以同时计算出每一语音频的时长、能量和频率信息,并与标准发音库对应的信息相比较,计算出每个单词(字)或/和音节的相似度,和置信度一起加权得到发音真实度。本发明可以评估的单位精确到每个字,每个音节,大大提高发音评估的精确度和效果。

    一种基于混淆网络的语音解码方法

    公开(公告)号:CN100431003C

    公开(公告)日:2008-11-05

    申请号:CN200410090801.8

    申请日:2004-11-12

    Abstract: 本发明属于语音识别领域,具体的说,涉及一种基于混淆网络的语音解码方法,包括步骤:1)对语音特征进行深度优先帧同步Viterbi-Beam搜索,输出N-Best句子或者词格;2)将N-Best句子或者词格按照时间相似度算法和音素相似度算法进行两级聚类生成混淆网络;3)在混淆网络上以后验概率最大为准则匹配搜索出最优结果。与现有的多遍解码方法相比,本发明在第二遍解码时,不需要更精细复杂的声学模型和语言模型,有效的缩减了网络,提高了解码速率;同时本发明还克服了现有多遍解码系统中解码失误无法修复的缺点。

    语音识别系统中的置信度快速求取方法

    公开(公告)号:CN101118745A

    公开(公告)日:2008-02-06

    申请号:CN200610089135.5

    申请日:2006-08-04

    Abstract: 本发明涉及一种用于语音识别系统的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据状态图、声学模型和该帧语音的特征向量,计算每一帧语音对应于状态图中每一个状态的似然概率p(xt/sj);按照帧号和状态号存储似然概率p(xt/sj);根据似然概率p(xt/sj)对状态进行剪枝;计算剪枝后声学空间的似然概率和以及广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。现有技术中,需要在进行音素搜索得到音素候选后,为计算置信度再使用不同的声学模型进行第二次搜索,而本发明是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用相同的声学模型计算置信度,因此只需进行一次搜索,节省了系统的运行时间和计算的复杂度。

Patent Agency Ranking