-
公开(公告)号:CN103021407A
公开(公告)日:2013-04-03
申请号:CN201210551676.0
申请日:2012-12-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明实施例涉及韩语语音识别方法及系统。所述方法包括:提取语音长时特征;对所述长时特征计算扩展音素集后验概率;对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了语音识别的效果。
-
公开(公告)号:CN101447184B
公开(公告)日:2011-07-27
申请号:CN200810110555.6
申请日:2008-06-03
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于音素混淆的中英文双语语音识别方法,该方法采用两遍音素聚类的方法统一中英文音素集,重新训练得到中英文混合声学模型,并修正相应的双语发音字典,解码器根据这些实现中英文双语识别。基于TCM音素混淆的中英文双语语音识别系统对中文的识别率可与独立中文语音识别系统相比较;并且在毫无中文口音的英文数据,仅依靠标准中文和英文训练数据的前提下,对带有中文口音的英文片断的识别情况相对独立英文语音识别系统有了明显提高;同时基于TCM音素混淆的中英文双语语音识别系统也优于目前常见的利用对数似然准则进行音素聚类得到的双语识别系统的识别性能,具有很高的实用性。
-
公开(公告)号:CN101645064B
公开(公告)日:2011-04-06
申请号:CN200810239727.X
申请日:2008-12-16
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种浅层自然口语理解系统及方法,该系统包括:预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Viterbi搜索模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征;采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类标记序列中提取出命名实体。本发明的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。
-
公开(公告)号:CN101853661A
公开(公告)日:2010-10-06
申请号:CN201010178166.4
申请日:2010-05-14
Applicant: 中国科学院声学研究所
Abstract: 本发明涉及一种基于非监督学习的噪声功率谱估计与语音活动度检测方法,包括下列步骤:1)对于语音信号在每一个频点上的对数幅度特征,建立一个GMM模型;2)对于一段语音数据,设定M帧缓存,把前M帧输入信号存入缓存中,提取缓存中M帧的对数幅度谱,代入步骤1)的GMM模型进行初始化,得到初始化的模型λ0,k;3)在得到初始化的模型λ0,k之后,从第M+1帧开始,采用增量学习的方法,逐帧更新GMM模型,依次递推得到并得出噪声值和语音信号在第i帧的第k个频点上的出现概率。本发明是谱估计与语音活动度检测的紧耦合解决方案,能够增强语音应用系统对噪声环境的适应性;本发明不依赖于“噪声起始”假设,并且,本发明还能够提供语音活动度在时频二维空间上的描述。
-
公开(公告)号:CN1753083B
公开(公告)日:2010-05-05
申请号:CN200410078336.6
申请日:2004-09-24
Applicant: 中国科学院声学研究所 , 北京中科信利通信技术有限公司 , 北京中科信利技术有限公司
Abstract: 在根据本发明的语音标记方法中,首先在语音注册阶段,采用由语音识别技术发展而成的语音标记算法,将用户注册时的语音转换成文本进行存储。这样,对于所有待识别的词汇,只需要建立一个识别词表的数据库。在进行识别时,对于用户的发音,按照通用的语音识别系统的流程来进行识别,即提取语音的特征,利用识别词表的信息建立识别语法,基于识别语法和声学模型,对于待识别语音的特征序列在整个候选空间中进行搜索匹配,寻找匹配概率最大的词作为识别结果。本发明还提供了相应的语音标记系统以及采用语音标记的语音识别方法和系统。通过本发明的语音标记方法和系统,能够显著提高语音识别系统的准确度、适应性和灵活性,降低系统所需的存储空间。
-
公开(公告)号:CN101651788A
公开(公告)日:2010-02-17
申请号:CN200810224791.0
申请日:2008-12-26
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: H04N5/278
Abstract: 本发明涉及一种在线语音文本对齐系统及方法,该系统包括:文本处理模块、错误检测模块、错误恢复模块及强制对齐模块。其中,强制对齐模块包括:特征提取模块、搜索空间构建模块和对齐解码模块。其中,错误恢复模块包括:语言模型估计模块、语言模型插值模块、语音识别模块及文本对齐和相似度计算模块。该系统及方法检测句子末尾的方法是传统的基于维特比对齐的方法的改进,通过利用束搜索的搜索空间的信息,估计句尾搜索空间的活跃程度A(t,sωe),估计在局部意义下的句子末尾时间*。本系统及方法具有自动错误检测文本和语音中的不匹配段并跳过这些段落的功能;可以实时的产生在线输入语音流和对应的文本的对齐结果,并能够处理带错误的长文本。
-
公开(公告)号:CN101447183A
公开(公告)日:2009-06-03
申请号:CN200810110479.9
申请日:2008-06-05
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/00
Abstract: 本发明涉及一种应用于语音识别系统的高性能置信度处理方法,其框架是基于一遍语音识别解码完成,在一遍语音识别过程中得到多个知识源,通过多个知识源融合处理得到置信度。本发明的语音识别置信度评价方法,只使用了一遍语音识别解码,同时利用了多个知识源,与以往的方法相比,该方法在大幅提高计算速度的同时,也使置信度计算的结果更为准确有效。
-
公开(公告)号:CN100431003C
公开(公告)日:2008-11-05
申请号:CN200410090801.8
申请日:2004-11-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明属于语音识别领域,具体的说,涉及一种基于混淆网络的语音解码方法,包括步骤:1)对语音特征进行深度优先帧同步Viterbi-Beam搜索,输出N-Best句子或者词格;2)将N-Best句子或者词格按照时间相似度算法和音素相似度算法进行两级聚类生成混淆网络;3)在混淆网络上以后验概率最大为准则匹配搜索出最优结果。与现有的多遍解码方法相比,本发明在第二遍解码时,不需要更精细复杂的声学模型和语言模型,有效的缩减了网络,提高了解码速率;同时本发明还克服了现有多遍解码系统中解码失误无法修复的缺点。
-
公开(公告)号:CN1284134C
公开(公告)日:2006-11-08
申请号:CN200410070139.X
申请日:2002-11-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开一种语音识别系统,包括一模数变换单元、一特征提取单元、一解码运算单元及一声学模型,用于接收语音输入信号并得到相匹配的识别结果,其中:该模数变换单元将该语音输入信号转换为一数字信号;该特征提取单元将该数字信号进行分帧处理,提取语音特征参数得输入语音特征矢量序列;该解码运算单元对该特征矢量序列进行解码运算得到识别结果。该声学模型为采用本发明压缩方法得到的高斯码本。本发明的语音识别系统,可在保证语音系统识别性能的前提下,提高系统的识别速度。
-
公开(公告)号:CN1773606A
公开(公告)日:2006-05-17
申请号:CN200410090801.8
申请日:2004-11-12
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明属于语音识别领域,具体的说,涉及一种基于混淆网络的语音解码方法,包括步骤:1)对语音特征进行深度优先帧同步Viterbi-Beam搜索,输出N-Best句子或者词格;2)将N-Best句子或者词格按照时间相似度算法和音素相似度算法进行两级聚类生成混淆网络;3)在混淆网络上以后验概率最大为准则匹配搜索出最优结果。与现有的多遍解码方法相比,本发明在第二遍解码时,不需要更精细复杂的声学模型和语言模型,有效的缩减了网络,提高了解码速率;同时本发明还克服了现有多遍解码系统中解码失误无法修复的缺点。
-
-
-
-
-
-
-
-
-