-
公开(公告)号:CN105096935B
公开(公告)日:2019-08-09
申请号:CN201410188847.7
申请日:2014-05-06
申请人: 阿里巴巴集团控股有限公司
发明人: 李志宁
CPC分类号: G10L15/25 , G06K9/00228 , G06K9/00335 , G06K9/00355 , G10L15/08 , G10L15/20 , G10L15/30 , G10L15/32
摘要: 本申请实施例提供了一种语音输入方法、装置和系统,所述语音输入方法包括:接收客户端发送的特征信息;所述特征信息包括语音信号和用户特征图像信号;识别出与所述用户特征图像信号匹配的第一候选识别数据;识别出与所述语音信号匹配的第二候选识别数据;至少根据所述第一候选识别数据和第二候识别选数据确定目标识别数据;以及将所述目标识别数据发送至所述客户端。本申请实施例通过图片处理技术结合语音识别技术,降低了用户在输入语音信号时说话声小、环境嘈杂等情况的干扰,提高了语音识别的准确率。
-
公开(公告)号:CN109686379A
公开(公告)日:2019-04-26
申请号:CN201811214601.7
申请日:2018-10-18
申请人: 福特全球技术公司
发明人: 兰贾尼·兰加拉詹 , 利亚·布施 , 约书亚·惠勒 , 斯科特·安德鲁·安曼 , 约翰·爱德华·胡贝尔
IPC分类号: G10L21/0208 , G10L21/0264 , G10L15/20
CPC分类号: G10L21/0264 , G10L21/0208 , G10L2021/02166 , H04R2499/13 , G10L15/20
摘要: 公开了用于确定和说明因车辆的内部车厢的几何性质所致的音频信号的失真的方法和设备。一种示例车辆包括传声器、具有多个座椅位置的座椅和处理器。所述处理器被配置为确定对应于接收到音频信号所处的时间点的第一座椅位置;确定对应于所述第一座椅位置的车厢脉冲响应;以及基于所述车厢脉冲响应和所述音频信号而确定已滤波的音频信号。
-
公开(公告)号:CN109286832A
公开(公告)日:2019-01-29
申请号:CN201710597704.5
申请日:2017-07-20
申请人: 中兴通讯股份有限公司
发明人: 田文静
IPC分类号: H04N21/422 , H04N21/439 , G10L15/22 , G10L15/20
CPC分类号: H04N21/439 , G10L15/20 , G10L15/22 , G10L2015/223 , H04N21/42203
摘要: 本发明公开了一种实现语音操控的方法、装置及机顶盒和计算机可读存储介质,所述方法包括以下步骤:获取语音采集设备的配置信息;根据预设的配置信息与语音算法的对应关系,匹配出与语音采集设备的配置信息相对应的语音算法;利用匹配出的语音算法对语音采集设备发送的语音信息进行降噪处理;将处理后的语音信息解析为操控指令。从而无需在机顶盒中内置麦克风,普通的机顶盒就能实现远程语音操控,极大的扩大了应用范围,大大降低了实现成本,并且一个机顶盒能够支持多种语音采集设备,实现方式更加灵活,并能保证较佳的远程语音操控效果,极大的提升了用户体验。
-
公开(公告)号:CN109256127A
公开(公告)日:2019-01-22
申请号:CN201811359541.8
申请日:2018-11-15
申请人: 江南大学
摘要: 本发明提供了一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法,主要解决针对在噪声环境下语音识别系统性能急剧下降的问题,该方法通利用符合耳蜗听觉特性的Gammachirp滤波器组,并对该滤波器进行了压缩归一化的处理优化,在得到响应系数后,通过一个分段式非线性的幂函数变换过程,使其能够模拟人耳听觉模型处理信号的非线性特性。并且,方法中结合了相对谱RASTA滤波、均值方差归一化和时间序列滤波等技术方法,进一步提高了语音特征的抗噪鲁棒性。本发明方法能够提高噪声环境下语音识别系统的识别率,提高系统的抗噪鲁棒性,满足日常生活中如智能家居、车载系统和各种需要进行身份安全认证的安全领域。
-
公开(公告)号:CN109036383A
公开(公告)日:2018-12-18
申请号:CN201810970729.X
申请日:2018-08-24
申请人: 上海理工大学
CPC分类号: G10L15/02 , G06F17/289 , G10L15/20 , G10L15/265 , G10L15/30
摘要: 本发明提供一种结合爬虫技术的轻量级实时语音识别及翻译装置,设置在连入互联网的终端中,通过与服务器交互进行语音识别及翻译,从而实现该装置的轻量化,其特征在于,包括:画面存储部、输入显示部、获取控制部、声音流获取部、声音流分块部、音频块缓存部、音频块缓存控制部、噪音筛选部、声音流判断部、留白判断部、音频块存储部、识别请求文件处理部、识别请求交互部、识别结果获取部、翻译请求文件处理部、翻译请求交互部、翻译结果获取部以及通信部;画面存储部存储有用户输入操作画面、语音识别画面以及语音翻译画面。
-
公开(公告)号:CN108682418A
公开(公告)日:2018-10-19
申请号:CN201810669327.6
申请日:2018-06-26
申请人: 北京理工大学
摘要: 本发明公开了一种模型预训练和双向LSTM的语音识别方法,属于深度学习和语音识别领域。1)输入待处理语音信号;2)预处理;3)提取梅尔倒谱系数及动态差分得到语音特征;4)构建双向LSTM结构;5)使用maxout函数优化双向LSTM,得到maxout‑biLSTM;6)模型预训练;7)使用预训练后的maxout‑biLSTM对含噪声的语音信号进行训练,得到结果。本发明使用maxout激活函数改进了双向LSTM的原激活函数,并且使用了模型预训练的方法,提高了声学模型在噪声环境下的鲁棒性,可应用于高噪声环境下语音识别模型的构建与训练。
-
公开(公告)号:CN108200509A
公开(公告)日:2018-06-22
申请号:CN201711443783.0
申请日:2017-12-27
申请人: 中国人民解放军总参谋部第六十研究所
CPC分类号: H04R1/14 , G10L15/20 , G10L15/24 , G10L21/0208 , G11B20/10527 , H04R1/1083
摘要: 本发明公开了一种用于噪杂环境下的录音装置,涉及技术录音装置领域。包括:喉头骨导送话器:其用于采集语音信号,并将语音信号转换成电信号输出;处理器:其与喉头骨导送话器连接,接收喉头骨导送话器输出的电信号,将电信号大小控制在预设范围内,并将电信号转换成数字信号输出;集成芯片:与处理器连接,接收处理器输出的数字信号,并将数字信号处理成语音数据;存储器:与集成芯片连接,用于存储所述语音数据;扬声器:与集成芯片连接;按键模块:与集成芯片连接,用于控制喉头骨导送话器工作,并用于控制扬声器对所述语音数据的播放以及停止播放。
-
公开(公告)号:CN104685563B
公开(公告)日:2018-06-15
申请号:CN201380045072.1
申请日:2013-08-25
申请人: 质音通讯科技(深圳)有限公司
IPC分类号: G10L21/0364
CPC分类号: G10K11/002 , G10K11/16 , G10L15/20 , G10L21/02 , G10L21/0208 , H03G3/3089 , H03G3/32 , H03G9/005 , H03G9/025 , H04R3/02
摘要: 本发明提供一种在环境噪音条件下自适应地增强语音和其它音频信号用户感知质量或体验质量(QoE)的方法。该方法包括连续不断地确定环境噪音的特征以捕捉噪音时变的特点,并自适应地确定最佳信号整形用来提升音频或语音信号质量从而最适合地补偿由环境噪音导致的影响。该方法还包括使用无限脉冲响应(IIR)滤波器来实现的低时延信号整形技术;多级自动增益控制(AGC);控制限幅模块,保证采样在一定的范围;并输出改进后的信号使其通过扬声器或其它类似机制回放。
-
公开(公告)号:CN108039174A
公开(公告)日:2018-05-15
申请号:CN201810015848.X
申请日:2018-01-08
申请人: 珠海格力电器股份有限公司
CPC分类号: G10L15/20 , G10L15/22 , G10L2015/223
摘要: 本发明公开了一种语音识别系统、方法和装置。其中,该系统包括:麦克风阵列和语音识别设备,其中,麦克风阵列,用于采集语音;语音识别设备包括:语音板和扬声器,其中,语音板,与麦克风阵列通信,用于接收麦克风阵列采集的语音,并对接收到的语音进行识别,得到识别结果;扬声器,与语音板通信,用于对语音板识别出的识别结果进行播报;其中,麦克风阵列外置于语音识别设备。本发明解决了由于麦克风阵列和扬声器安装位置限制造成的声学回音消除AEC调试及所在电器结构设计困难的技术问题。
-
公开(公告)号:CN107527611A
公开(公告)日:2017-12-29
申请号:CN201710731077.X
申请日:2017-08-23
申请人: 武汉斗鱼网络科技有限公司
摘要: 本发明公开了一种MFCC语音识别方法、存储介质、电子设备及系统,涉及语音识别领域。该方法的步骤为:对需要语音识别的语音信号进行预处理,得到MFCC初始信号,计算MFCC初始信号的低频频率、中频频率和高频频率,将MFCC初始信号的低、中和高频频率进行融合,得到MFCC特征参数,对MFCC特征参数F进行降维,得到MFCC降维特征参数。本发明显著提高了MFCC特征参数在噪声环境和高频区域中的识别精度,进而实现了在噪声环境和高频区域中的语音信号中提取MFCC特征参数的目的,非常适于推广。
-
-
-
-
-
-
-
-
-