基于运动的语音活动检测

    公开(公告)号:CN102708857A

    公开(公告)日:2012-10-03

    申请号:CN201210051770.X

    申请日:2012-03-01

    申请人: 微软公司

    发明人: R·K-S·关

    CPC分类号: G10L25/78 G06K9/00335

    摘要: 本发明涉及基于运动的语音活动检测。在常规的系统中,单独地基于诸如零交叉或能级的音频流的特性或特征来计算语音检测系统的输入。本发明涉及基于各种输入来判定接收音频流的系统是否应处于语音或非语音这两种状态之一的判定规则。除音频流以外,判定规则可结合基于运动的流作为判定规则的输入。权利要求书针对接收数据流,确定与数据流相关联的至少一个非音频元素是否指示该数据流包括语音,并且,响应于确定与数据流相关联的至少一个非音频元素指示该数据流包括语音,对与该数据流相关联的至少一个音频元素执行语音到文本转换。

    自适应多速率宽带不连续发送的一种编码器和方法

    公开(公告)号:CN101609682B

    公开(公告)日:2012-08-08

    申请号:CN200810038985.1

    申请日:2008-06-16

    申请人: 向为

    发明人: 向为

    IPC分类号: G10L19/14 G10L11/02

    摘要: 本发明提出一种在不连续发送机制中采用后向相关检测的自适应多速率编码器和编码方法,本发明的后向相关检测把当前待编码帧和后续相邻信号作为检测对象,在检测到后向相关结果时不连续发送的发送类型就是正常话音,这样的自适应多速率编码器和编码方法能使译码器合成的声音信号能准确地反映原始声音的听觉效果。本发明可直接应用于第三代移动通信系统——通用移动通信系统的话音编码技术中。

    语音端点指示器
    4.
    发明授权

    公开(公告)号:CN101031958B

    公开(公告)日:2012-05-16

    申请号:CN200680000746.6

    申请日:2006-04-03

    IPC分类号: G10L11/02 G10L15/20

    摘要: 基于规则的端点指示器将在音频流中包含的口语话语从背景噪声和非语音瞬间隔离开。基于规则的端点指示器包括多个规则,以基于多个语音特征来确定口语话语的开始和/或结尾。规则可基于事件、事件的组合、事件的持续时间、与事件相关的持续时间来对音频流或音频流的部分进行分析。规则可取决于包括音频流自身的特征、音频流中包含的预期回答、或环境条件而手动或自动定制。

    低复杂度听觉事件边界检测

    公开(公告)号:CN102414742A

    公开(公告)日:2012-04-11

    申请号:CN201080018685.2

    申请日:2010-04-12

    发明人: G·N·迪金斯

    IPC分类号: G10L11/02 G10L19/02 H04N5/60

    CPC分类号: G10L19/025 G10L25/78

    摘要: 一种听觉事件边界检测器在没有抗混叠滤波器的情况下使用输入数字音频信号的下采样,产生了具有混叠的较窄带宽中间信号。指示事件边界的此中间信号的频谱改变可通过使用自适应滤波器来追踪该中间信号的采样的线性预测模型而被检测到。滤波器误差的幅度或功率的改变对应于输入音频信号的频谱的改变。该自适应滤波器以与听觉事件的持续时间一致的速率收敛,因而滤波器误差幅度或功率的改变指示事件边界。与对于音频信号的全带宽使用时间至频率变换的方法相比,该检测器的复杂度小得多。

    一种语音识别的端点检测方法

    公开(公告)号:CN102148030A

    公开(公告)日:2011-08-10

    申请号:CN201110071269.5

    申请日:2011-03-23

    申请人: 同济大学

    发明人: 沈勇 陈磊敏 周杰

    IPC分类号: G10L11/02 G10L15/20

    摘要: 一种语音识别的端点检测方法,其包括:采集背景噪声和含噪语音信号;分析背景噪声和含噪语音信号的特性;提取背景噪声线性预测模型的参数或者其LPC(linear predictive coding)即线性预测编码系数,作为背景噪声线性预测模板;确定含噪语音信号的端点。即将每帧含噪语音的线性预测系数和背景噪声模板的参数对比,并处理为特征值。当此特征值的变化超过设定值时,即作为检测到语音端点的标志还可以根据背景噪声的变化,即修正背景噪声线性预测模型将它作为背景噪声模板。本发明能够很好实现带背景噪声环境下,对人们说话语音信号的端点检测。

    语音端点检测方法及装置

    公开(公告)号:CN101599269B

    公开(公告)日:2011-07-20

    申请号:CN200910088491.9

    申请日:2009-07-02

    IPC分类号: G10L11/02

    摘要: 本发明提供一种语音端点检测方法及装置。该语音端点检测方法包括:接收带噪语音数据,将所述带噪语音数据分为有重叠的多个语音帧,并对每个语音帧进行快速傅利叶变化运算,得到每个语音帧的频谱;将每个语音帧的频谱划分为均匀、无重叠的多个子带,并根据所述子带的能量生成子带功率谱熵概率密度;对所述子带功率谱熵概率密度进行加权处理,得到每个语音帧的子带加权功率谱熵;根据预设的语音端点判决阈值和所述子带加权功率谱熵判断当前语音帧为噪声段或语音段。本发明通过采用子带加权功率谱熵作为VAD判决的语音特征值,并根据实际应用环境自适应的选择子带数目和权重因子,提高了语音检测的准确性和精确度,且明显提高了通信信噪比。

    多麦克风语音活动检测器

    公开(公告)号:CN102077274A

    公开(公告)日:2011-05-25

    申请号:CN200980125256.2

    申请日:2009-06-25

    发明人: 俞容山

    IPC分类号: G10L11/02

    CPC分类号: G10L25/78

    摘要: 提供了一种双麦克风语音活动检测器系统。语音活动检测器系统估计每个麦克风处的信号水平和噪声水平。诸如信号的附近声音在两个麦克风之间的水平差大于诸如噪声的更远距离声音的水平差。因此,语音活动检测器检测附近声音的存在。

    一种确定非噪声音频信号类别的方法及装置

    公开(公告)号:CN101399039B

    公开(公告)日:2011-05-11

    申请号:CN200710149984.X

    申请日:2007-09-30

    发明人: 王珺 王喆

    CPC分类号: G10L15/02 G10L25/48

    摘要: 本发明公开了一种确定非噪声音频信号类别的方法,首先,获取非噪声音频信号的特征参数;然后,根据所述特征参数,利用决策树初步判决所述非噪声音频信号的类别;最后,根据所述非噪声音频信号的语境和所述初步判决的结果,确定所述非噪声音频信号的类别。本发明还公开了一种确定非噪声音频信号类别的装置。本发明通过不依赖于编码器算法的非噪声音频信号的特征参数,对所述非噪声音频信号的类别进行判定,增强了算法的独立性和可移植性。

    语音激活检测方法与装置、编码器

    公开(公告)号:CN102044243A

    公开(公告)日:2011-05-04

    申请号:CN200910207311.4

    申请日:2009-10-15

    发明人: 王喆 张清

    IPC分类号: G10L11/02

    CPC分类号: G10L25/78

    摘要: 本发明实施例公开了一种语音激活检测方法与装置、编码器,其中,语音激活检测方法包括:输入信号为背景噪声时,获取所述背景噪声的波动特征值,该波动特征值用于表示所述背景噪声的波动大小;根据所述波动特征值,对语音激活检测VAD的判决准则相关参数进行自适应调整;利用自适应调整后的判决准则相关参数,对所述输入信号进行VAD判决。本发明实施例可以自适应于背景噪声的波动性进行VAD判决,从而提高VAD判决性能,节省有限的信道带宽资源,实现信道带宽的高效利用。