-
公开(公告)号:CN107274894A
公开(公告)日:2017-10-20
申请号:CN201710358269.0
申请日:2017-05-19
申请人: 杭州仁盈科技股份有限公司
发明人: 范晨
摘要: 本发明公开了一种提高嘈杂环境下语音识别率的方法,该方法包括如下步骤:第一步:从识别云平台取得识别结果;第二步:将识别结果快速翻译为拼音;第三步:查询数据库配置表,将拼音翻译为业务需要的文字;第四步:将翻译后的文字返回给应用程序。本发明的有益效果为:本发明提供了一种有效提高嘈杂环境下语音识别率的方法,能够用非常少的代价,大大提高嘈杂环境下的识别率。通过实施这种拼音近似音的定制转化,显著提高了嘈杂环境下命令词的识别率,同时也大大降低了代码和数据字典维护的工作量。
-
公开(公告)号:CN107165846A
公开(公告)日:2017-09-15
申请号:CN201610128228.8
申请日:2016-03-07
申请人: 深圳市轻生活科技有限公司
发明人: 陈芒
IPC分类号: F04D27/00
摘要: 本发明公开了一种语音控制智能风扇,包括:驱动风扇转动的马达、第一麦克风、第二麦克风、噪音消除模块、语音储存模块、语音识别模块、处理器。本发明通过第一麦克风获取智能风扇发出的噪音信号,通过第二麦克风获取用户发出的语音指令信号;然后,通过噪音消除模块中预存的非线性噪音消除算法和第一麦克风获取的噪音信号,模拟出需要过滤掉的噪音信号,并对第二麦克风获取的语音指令信号进行过滤;最后,通过语音识别模块来识别过滤掉噪音信号的语音指令信号,得到相应的语音指令信息,并通过处理器控制智能风扇执行这些语音指令,这样就能够实现语音控制智能风扇工作,进而使得该智能风扇使用简便,用户体验好。
-
公开(公告)号:CN107112011A
公开(公告)日:2017-08-29
申请号:CN201480083583.7
申请日:2014-12-22
摘要: 描述了用于音频特征提取的倒谱方差归一化。在一些实施例中,一种方法包括:接收来自麦克风的数字化音频的帧序列;确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定;使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值;使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差;确定针对所述帧序列中的每个后续帧的下一个特征向量;在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,并且其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和将所确定的特征向量发送到音频处理流水线的识别级。
-
公开(公告)号:CN106653004A
公开(公告)日:2017-05-10
申请号:CN201611221640.0
申请日:2016-12-26
申请人: 苏州大学
摘要: 本发明公开了感知语谱规整耳蜗滤波系数的说话人识别特征提取方法,其包括以下步骤:先构建符合耳蜗基底膜行波冲激响应及非线性频率分布的耳蜗滤波器组;再对语音进行基于听觉感知特性的语音增强以及二维增强,并通过对连续分布的纯净语音语谱结构进行二维边界检测,得到感知语谱结构规整参数PSN;最后通过感知语谱结构规整参数PSN在时域中进一步规整所有由耳蜗滤波器组输出的耳蜗滤波系数,提取感知语谱规整耳蜗滤波系数PSNCC特征参数。本发明所提取的PSNCC特征参数从时‑频域两个方面提高了特征参数的鲁棒性能,进而提高了低信噪比的噪声环境下说话人识别系统的识别率。
-
公开(公告)号:CN106328126A
公开(公告)日:2017-01-11
申请号:CN201610917557.0
申请日:2016-10-20
申请人: 北京云知声信息技术有限公司
CPC分类号: G10L15/16 , G10L15/063 , G10L15/20 , G10L25/51
摘要: 本发明公开了一种远场语音识别处理方法及装置,该方法包括:接收远场语音;将所述远场语音输入到预先训练得出的基于神经网络的语音训练模型中;通过所述语音训练模型中包含的远场语音和近场语音的音频特征,对接收到的远场语音的音频特征进行去干扰处理,得到处理后的远场语音;对处理后的远场语音进行识别。该方法能够实现对远场语音的优化处理,获取到较佳的处理结果且降低了设备成本投入。
-
公开(公告)号:CN103680513B
公开(公告)日:2016-11-02
申请号:CN201310681217.9
申请日:2013-12-13
申请人: 广州华多网络科技有限公司
IPC分类号: G10L21/0208 , G10L19/00 , H04M3/56 , H04L12/58
CPC分类号: G10L21/0208 , G10L15/20 , G10L19/008 , G10L25/21 , H04M3/56
摘要: 本发明公开了一种语音信号处理方法、装置及服务器,属于通信技术领域。所述方法包括:获取多个通道的原始语音信号,该原始语音信号为数字语音信号;对每一个通道的原始语音信号进行滤波,得到每一个通道的第一语音信号,该第一语音信号的频率属于预设频率范围;对于每一个通道的第一语音信号,获取该第一语音信号中每段子信号的响度;根据该第一语音信号中每段子信号的响度以及该多个通道的同一段子信号的响度和,获取该第一语音信号中每段子信号的第一权重;按照该多个通道的第一语音信号中每段子信号的第一权重和该多个通道的第一语音信号,得到处理后的语音信号。本发明通过信号的权重对信号进行处理,提高了语音辨识度。
-
公开(公告)号:CN106023987A
公开(公告)日:2016-10-12
申请号:CN201610280913.2
申请日:2016-04-28
申请人: 成都之达科技有限公司 , 成都同创合一科技有限公司
IPC分类号: G10L15/20
CPC分类号: G10L15/20
摘要: 本发明提供了一种基于车联网的车载终端语音信号处理方法,该方法包括:将语音信号的时域混合变换成频域混合,对其中每个频点进行频域分离;通过幅值补偿消除各频点增益差异所导致的幅值模糊,通过短时FFT逆变换将频域信号变换成时域信号,得到时域下对应的语音信号。本发明提出了一种基于车联网的车载终端语音信号处理方法,减弱了背景噪声对车载语音识别系统的干扰,有效地改善了在噪声环境下车载语音识别系统的性能。
-
公开(公告)号:CN105704298A
公开(公告)日:2016-06-22
申请号:CN201510814699.X
申请日:2015-11-23
申请人: 联发科技股份有限公司
IPC分类号: H04M1/725
CPC分类号: G10L15/08 , G06F1/3206 , G06F1/3287 , G06F9/4418 , G10L15/02 , G10L15/20 , G10L15/22 , G10L15/32 , G10L2015/088 , H04M1/72538 , H04M1/72563
摘要: 本发明揭示一种声音唤醒侦测装置,运用于电子产品,该装置包括:前端侦测电路,声音辨识处理器以及主处理器。前端侦测电路根据子关键词模型参数来辨识声音信号中是否出现子关键词,并且于确认出现该子关键词时,产生第一中断信号。声音辨识处理器,于接收到该第一中断信号后开始运作,该声音辨识处理器根据关键词模型参数来辨识该声音信号中是否出现关键词,并且于确认出现该关键词时,产生第二中断信号。主处理器,于接收到该第二中断信号后开始运作,并使得该电子产品由睡眠状态进入正常运作模式。
-
公开(公告)号:CN105609099A
公开(公告)日:2016-05-25
申请号:CN201510991556.6
申请日:2015-12-25
申请人: 重庆邮电大学
IPC分类号: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/20 , G10L21/0232 , G10L21/0272
CPC分类号: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/20 , G10L21/0232 , G10L21/0272 , G10L2015/0631
摘要: 本发明请求保护一种基于人耳听觉特性的语音识别预处理方法,涉及语音识别领域,它采用具有人耳听觉特性的预处理方法,具有较强的扩展性,在噪声环境下,相比于传统抗噪方法,该方法具有更好的抗噪效果,该语音识别系统具有更好的鲁棒性。含噪声的语音信号经过耳蜗基底膜模型进行频谱分析,再通过上橄榄核模型进行语音信息提取,最后在下丘脑细胞模型中完成语音分离。分离得到更纯净的语音后,通过语音定位确立目标语音信号,从而从噪声环境中分离出待识别语音信号。
-
公开(公告)号:CN105489226A
公开(公告)日:2016-04-13
申请号:CN201510812196.9
申请日:2015-11-23
申请人: 湖北工业大学
IPC分类号: G10L21/0232 , G10L25/45 , G10L25/21
CPC分类号: G10L21/0232 , G10L15/20 , G10L25/21 , G10L25/45
摘要: 本发明提供一种用于拾音器的多窗谱估计的维纳滤波语音增强方法,其特征在于,该方法先将带噪语音进行多窗口谱估计,再通过小波阈值去除噪声项得到近似纯净的语音谱;然后与维纳滤波处理后的语音谱相比较,根据不同的失真类型选择相应的谱作为最终增强的语音谱。将本方法应用于拾音器中,相比已有的均方预测误差和预白化子空间方法,该方法处理后的语音更平滑,与纯净语音更接近;在低信噪比及复杂噪声的情况下,该拾音器对语音处理速度更快,编解码效率高,降噪性能更好,且鲁棒性更强。同时,在距离较远的环境下,语音也有较好的识别效果。
-
-
-
-
-
-
-
-
-