-
公开(公告)号:CN101496095B
公开(公告)日:2012-11-21
申请号:CN200780028081.4
申请日:2007-07-31
申请人: 高通股份有限公司
发明人: 维韦克·拉金德朗 , 阿南塔帕德马那伯罕·A·坎达哈达伊
摘要: 本发明所揭示的配置包括经布置以产生基于语音信号无效帧的频谱倾斜值序列的系统、方法及设备。对于所述语音信号的多个无效帧中的每一者而言,根据在所述序列中的至少两个对应值之间所计算出的变化而作出传输决定。所述传输决定的结果确定是否针对所述对应无效帧而传输静默描述。
-
公开(公告)号:CN102708857A
公开(公告)日:2012-10-03
申请号:CN201210051770.X
申请日:2012-03-01
申请人: 微软公司
发明人: R·K-S·关
CPC分类号: G10L25/78 , G06K9/00335
摘要: 本发明涉及基于运动的语音活动检测。在常规的系统中,单独地基于诸如零交叉或能级的音频流的特性或特征来计算语音检测系统的输入。本发明涉及基于各种输入来判定接收音频流的系统是否应处于语音或非语音这两种状态之一的判定规则。除音频流以外,判定规则可结合基于运动的流作为判定规则的输入。权利要求书针对接收数据流,确定与数据流相关联的至少一个非音频元素是否指示该数据流包括语音,并且,响应于确定与数据流相关联的至少一个非音频元素指示该数据流包括语音,对与该数据流相关联的至少一个音频元素执行语音到文本转换。
-
-
公开(公告)号:CN101031958B
公开(公告)日:2012-05-16
申请号:CN200680000746.6
申请日:2006-04-03
申请人: QNX软件系统有限公司
摘要: 基于规则的端点指示器将在音频流中包含的口语话语从背景噪声和非语音瞬间隔离开。基于规则的端点指示器包括多个规则,以基于多个语音特征来确定口语话语的开始和/或结尾。规则可基于事件、事件的组合、事件的持续时间、与事件相关的持续时间来对音频流或音频流的部分进行分析。规则可取决于包括音频流自身的特征、音频流中包含的预期回答、或环境条件而手动或自动定制。
-
公开(公告)号:CN102414742A
公开(公告)日:2012-04-11
申请号:CN201080018685.2
申请日:2010-04-12
申请人: 杜比实验室特许公司
发明人: G·N·迪金斯
CPC分类号: G10L19/025 , G10L25/78
摘要: 一种听觉事件边界检测器在没有抗混叠滤波器的情况下使用输入数字音频信号的下采样,产生了具有混叠的较窄带宽中间信号。指示事件边界的此中间信号的频谱改变可通过使用自适应滤波器来追踪该中间信号的采样的线性预测模型而被检测到。滤波器误差的幅度或功率的改变对应于输入音频信号的频谱的改变。该自适应滤波器以与听觉事件的持续时间一致的速率收敛,因而滤波器误差幅度或功率的改变指示事件边界。与对于音频信号的全带宽使用时间至频率变换的方法相比,该检测器的复杂度小得多。
-
公开(公告)号:CN102148030A
公开(公告)日:2011-08-10
申请号:CN201110071269.5
申请日:2011-03-23
申请人: 同济大学
摘要: 一种语音识别的端点检测方法,其包括:采集背景噪声和含噪语音信号;分析背景噪声和含噪语音信号的特性;提取背景噪声线性预测模型的参数或者其LPC(linear predictive coding)即线性预测编码系数,作为背景噪声线性预测模板;确定含噪语音信号的端点。即将每帧含噪语音的线性预测系数和背景噪声模板的参数对比,并处理为特征值。当此特征值的变化超过设定值时,即作为检测到语音端点的标志还可以根据背景噪声的变化,即修正背景噪声线性预测模型将它作为背景噪声模板。本发明能够很好实现带背景噪声环境下,对人们说话语音信号的端点检测。
-
公开(公告)号:CN101599269B
公开(公告)日:2011-07-20
申请号:CN200910088491.9
申请日:2009-07-02
申请人: 中国农业大学 , 北京中大捷通科技有限公司
IPC分类号: G10L11/02
摘要: 本发明提供一种语音端点检测方法及装置。该语音端点检测方法包括:接收带噪语音数据,将所述带噪语音数据分为有重叠的多个语音帧,并对每个语音帧进行快速傅利叶变化运算,得到每个语音帧的频谱;将每个语音帧的频谱划分为均匀、无重叠的多个子带,并根据所述子带的能量生成子带功率谱熵概率密度;对所述子带功率谱熵概率密度进行加权处理,得到每个语音帧的子带加权功率谱熵;根据预设的语音端点判决阈值和所述子带加权功率谱熵判断当前语音帧为噪声段或语音段。本发明通过采用子带加权功率谱熵作为VAD判决的语音特征值,并根据实际应用环境自适应的选择子带数目和权重因子,提高了语音检测的准确性和精确度,且明显提高了通信信噪比。
-
-
公开(公告)号:CN101399039B
公开(公告)日:2011-05-11
申请号:CN200710149984.X
申请日:2007-09-30
申请人: 华为技术有限公司
摘要: 本发明公开了一种确定非噪声音频信号类别的方法,首先,获取非噪声音频信号的特征参数;然后,根据所述特征参数,利用决策树初步判决所述非噪声音频信号的类别;最后,根据所述非噪声音频信号的语境和所述初步判决的结果,确定所述非噪声音频信号的类别。本发明还公开了一种确定非噪声音频信号类别的装置。本发明通过不依赖于编码器算法的非噪声音频信号的特征参数,对所述非噪声音频信号的类别进行判定,增强了算法的独立性和可移植性。
-
公开(公告)号:CN102044243A
公开(公告)日:2011-05-04
申请号:CN200910207311.4
申请日:2009-10-15
申请人: 华为技术有限公司
IPC分类号: G10L11/02
CPC分类号: G10L25/78
摘要: 本发明实施例公开了一种语音激活检测方法与装置、编码器,其中,语音激活检测方法包括:输入信号为背景噪声时,获取所述背景噪声的波动特征值,该波动特征值用于表示所述背景噪声的波动大小;根据所述波动特征值,对语音激活检测VAD的判决准则相关参数进行自适应调整;利用自适应调整后的判决准则相关参数,对所述输入信号进行VAD判决。本发明实施例可以自适应于背景噪声的波动性进行VAD判决,从而提高VAD判决性能,节省有限的信道带宽资源,实现信道带宽的高效利用。
-
-
-
-
-
-
-
-
-