-
公开(公告)号:CN102665156A
公开(公告)日:2012-09-12
申请号:CN201210083752.X
申请日:2012-03-27
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于耳机的虚拟3D重放方法,其包括设定虚拟3D声源的参数;计算空气对声音的吸收值,计算声音的声压衰减因子;计算房间脉冲响应RIR;计算RIR每样点与接收点位置距离d,依据d计算原声源经传输d距离后的声压;以插值法处理墙面频率点的吸收系数,以获得增加空气衰减及墙面吸收后的房间脉冲响应;计算声源点和头位置之间的水平角度和仰角,以选择最接近的头相关传输函数;将HRTF与增加空气衰减及墙面吸收后的房间脉冲响应卷积,以获得双耳房间脉冲响应BRIR;将BRIR与输入声信号卷积,以实现基于耳机的虚拟3D声信号。依照本发明提供的方法可较好地解决耳机重放时的“头内”问题、距离方位感、房间特性等问题,从而实现基于耳机的虚拟3D效果。
-
公开(公告)号:CN101650886B
公开(公告)日:2011-05-18
申请号:CN200810224792.5
申请日:2008-12-26
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种用于自动检测语言学习者朗读错误的方法,包括:根据朗读语料训练多发音模型;根据参考答案、发音字典、多发音模型构建精简搜索空间;根据参考答案及语言学知识构建朗读语言模型;对输入语音预处理分帧,提取语音特征;采用Viterbi算法在精简搜索空间中搜索一条声学模型得分、语言模型得分及发音得分的累积分数最高的一条发音路径作为识别发音序列;将识别的发音序列与参考答案的发音序列通过动态规划匹配算法对齐,进而得到朗读的多读、漏读、错读结果。本发明中采用隐马尔可夫模型作为声学模型,不需要模板语音,可大大提高使用的便利性,其性能和运行速度也较好。
-
公开(公告)号:CN101118745B
公开(公告)日:2011-01-19
申请号:CN200610089135.5
申请日:2006-08-04
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种用于语音识别系统的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据状态图、声学模型和该帧语音的特征向量,计算每一帧语音对应于状态图中每一个状态的似然概率p(xt/sj);按照帧号和状态号存储似然概率p(xt/sj);根据似然概率p(xt/sj)对状态进行剪枝;计算剪枝后声学空间的似然概率和以及广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。现有技术中,需要在进行音素搜索得到音素候选后,为计算置信度再使用不同的声学模型进行第二次搜索,而本发明是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用相同的声学模型计算置信度,因此只需进行一次搜索,节省了系统的运行时间和计算的复杂度。
-
公开(公告)号:CN1963919B
公开(公告)日:2010-05-05
申请号:CN200510117698.6
申请日:2005-11-08
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L19/00
Abstract: 本发明涉及一种对单音进行音符切分的方法,更具体地说,本发明涉及一种基于能量的音符切分方法,包括:1)对语音信号进行分帧处理;2)计算出每一帧的谐波和能量。3)计算出每一帧的谐波和能量突出度δ;4)通过前后比较找出整个语音信号中突出度δ的极值点5)判断突出度δ极值点是否大于1,若判断为是,则把该极值点所在帧作为音符分割点。与现有技术相比,本发明的优点是:对于能量变化的各种情况有统一稳定的计算方式,音符切分的判决简单可靠。
-
公开(公告)号:CN101650943A
公开(公告)日:2010-02-17
申请号:CN200810239892.5
申请日:2008-12-19
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L15/06
Abstract: 本发明涉及一种基于混合模型状态修正的非母语语音识别系统及方法。该系统包括:非母语语音接口、母语模型模块、非母语模型模块、母语状态解码模块、非母语状态强制对齐模块、母语与非母语状态相似度矩阵计算模块、母语与非母语状态映射表计算模块及非母语状态修正模型解码模块,该系统及方法通过不同模型间的状态映射,利用说话人母语的声学模型在状态级别上对非母语声学模型进行修正,从而得到更为符合非母语发音特点的模型。该系统及方法有如下优点:在不增加任何非母语语音训练数据,仅依靠说话人母语训练数据的前提下,相对未采用该方法修正过的识别系统的识别性能有明显提高;同时系统识别语音的速度并未明显降低,具有很高的实用性。
-
公开(公告)号:CN101645064A
公开(公告)日:2010-02-10
申请号:CN200810239727.X
申请日:2008-12-16
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种浅层自然口语理解系统及方法,该系统包括:预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Viterbi搜索模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征;采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类标记序列中提取出命名实体。本发明的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。
-
公开(公告)号:CN101546554A
公开(公告)日:2009-09-30
申请号:CN200810102581.4
申请日:2008-03-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L11/00
Abstract: 本发明公开了一种汉语普通话中清擦音和塞擦音的客观测试方法,包括:接收输入语音;对输入语音进行切分;提取区别特征;根据评估模型进行打分;得到发音得分。通过应用本发明,采用更能反映发音本质的区别特征,对清擦音和塞擦音进行区分,可以得到更好的区分性能。
-
公开(公告)号:CN101546553A
公开(公告)日:2009-09-30
申请号:CN200810102580.X
申请日:2008-03-24
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L11/00
Abstract: 本发明公开了一种汉语普通话中平舌音和卷舌音的客观测试方法,包括:接收输入语音;对输入语音进行切分;提取区别特征;根据评估模型进行评估打分和得到发音得分。通过应用本发明,采用更能反映发音本质的区别特征,对平舌音和卷舌音进行区分,可以得到更好的区分性能。
-
公开(公告)号:CN101452704A
公开(公告)日:2009-06-10
申请号:CN200710178363.4
申请日:2007-11-29
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种基于信息传递的说话人聚类方法,包括如下步骤:1)计算两两数据段之间的相似度s(i,k),其中k≠i;2)设定各数据段作为聚类中心的优先度s(k,k),其中k表示第k个数据段,将所有的a值a(i,k)初始化为零;3)根据两两数据段之间的a值和各数据段优先度,计算两两数据段之间的r值r(i,k);然后根据两两数据段之间的r值,再计算两两数据段之间的a值;4)将r值和a值合并,以该合并值决策聚类中心;5)重复执行步骤3)、4),直到找到稳定的聚类中心,结束聚类,统计聚类数目本发明初始时认为每一个数据段都是潜在的聚类中心,具有较强的鲁棒性。同时本发明只需要一次性计算每两段之间的距离,具有更快的运行速度。
-
公开(公告)号:CN101447186A
公开(公告)日:2009-06-03
申请号:CN200710178220.3
申请日:2007-11-28
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供一种单音旋律曲线的匹配方法,包括:1)将待匹配的两段单音旋律分帧,分别提取每一帧的基频,得到两个基频序列;2)选择划分点k,l,将所述基频序列A1,…,n和B1,…,m分别划分为前、后两个子序列,然后计算折线匹配代价;选择不同的划分点组合,找出使得该折线匹配代价最小的最优划分点组合k、l;3)回到步骤2),进一步找出前子序列和后子序列各自的最优划分点组合,这样不断循环,直到划分得出的子序列长度小于预先设定的门限值。相对于已有的非线性旋律匹配方法,本发明中的方法采用自上而下的递归方式解决旋律匹配问题,能够更好地强调整体旋律线的匹配,具有更好的匹配效果,也更符合人对音乐的感知。同时,本发明的方法具有较低的算法复杂度。
-
-
-
-
-
-
-
-
-