-
公开(公告)号:CN103971690A
公开(公告)日:2014-08-06
申请号:CN201310032846.9
申请日:2013-01-28
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L17/20
CPC分类号: G10L17/18
摘要: 本发明实施方式提出一种声纹识别方法和装置。方法包括:基于无标注语音数据建立深层神经网络初级模型,并且基于有标注语音数据对该深层神经网络初级模型进行训练,以获取深层神经网络二级模型;利用该深层神经网络二级模型注册说话人高层声纹特征与说话人标识;接收测试语音数据,基于该深层神经网络二级模型从测试语音数据中提取测试语音高层声纹特征,并且基于该测试语音高层声纹特征确定说话人标识。通过深层神经网络自动学习语音信号当中包含能够抵御噪声干扰的高层次说话人信息,可以有效抵御噪声干扰。
-
公开(公告)号:CN108288467B
公开(公告)日:2020-07-14
申请号:CN201710425219.X
申请日:2017-06-07
申请人: 腾讯科技(深圳)有限公司
摘要: 本发明实施例公开了一种语音识别方法,包括:在持续获取语音信号的过程中,获取当前账户对应的自定义语料;对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。本发明实施例同时还提供一种语音识别装置及语音识别引擎。
-
公开(公告)号:CN106098075A
公开(公告)日:2016-11-09
申请号:CN201610643347.7
申请日:2016-08-08
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L21/0216
CPC分类号: G10L21/0216 , G10L2021/02166
摘要: 本发明公开了一种基于麦克风阵列的音频采集方法和装置。该方法包括:通过第一麦克风阵列在全方向上搜索音频,第二麦克风阵列在第一波束指向上采集第一目标音频;判断第一麦克风阵列搜索到的触发音频是否满足预定切换触发条件;若满足将其作为第二目标音频,并将其声源定位信息发送给第二麦克风阵列;判断发出第二目标音频的第二声源所在的第二位置与发出第一目标音频的第一声源所在的第一位置是否相同;若第二位置与第一位置不同,则控制第二麦克风阵列进行波束指向切换,以在第二波束指向上采集第二目标音频。本发明解决了相关技术中由于单个麦克风阵列的音频采集方向固定所导致的无法采集其他方向上的音频的技术问题。
-
公开(公告)号:CN104142915B
公开(公告)日:2016-02-24
申请号:CN201310196391.4
申请日:2013-05-24
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06F17/27
摘要: 本发明公开了一种添加标点的方法和系统。该方法包括:基于静音检测将待处理语音文件分为一个以上的待处理语段,根据每个待处理语段包含的每个词和每个词的语义特征,识别所述待处理语音文件中出现的所有特征单元;利用基于分词和词语的语义特征建立的语言模型,根据所述所有特征单元确定所述待处理语音文件的各种标点状态的综合权重;根据所述综合权重为所述待处理语音文件添加标点。应用本发明能提高添加标点准确性。
-
公开(公告)号:CN104143327B
公开(公告)日:2015-12-09
申请号:CN201310288097.6
申请日:2013-07-10
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L15/06
CPC分类号: G06N3/08
摘要: 本发明实施方式提出一种声学模型训练方法和装置。方法包括:建立深层神经网络模型初始模型;将语音训练数据划分为N个不相交的数据子集合,针对每个数据子集合利用随机梯度下降算法更新深层神经网络模型初始模型,得到N个深层神经网络模型子模型,其中N为至少为2的自然数;融合N个深层神经网络模型子模型以得到深层神经网络模型中间模型,并当该深层神经网络模型中间模型符合预先设定的收敛条件时,判定该深层神经网络模型中间模型为训练后声学模型。本发明实施方式提高了声学模型的训练效率,并且不降低语音识别的性能。
-
公开(公告)号:CN103971684B
公开(公告)日:2015-12-09
申请号:CN201310034265.9
申请日:2013-01-29
申请人: 腾讯科技(深圳)有限公司
CPC分类号: G10L15/04 , G10L15/1815
摘要: 本申请公开了一种添加标点的方法、系统及其语言模型建立方法、装置。该方法包括:识别待处理语句中的每个词、以及每个词的语义特征;根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元;从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系;根据所述对应关系确定待处理语句中每个词的标点状态的权重,根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重,根据所述综合权重为待处理语句添加标点。应用本发明能够提高添加标点的准确性、或提取出语句所蕴含的信息与语句的标点之间的真实关系。
-
公开(公告)号:CN104143329B
公开(公告)日:2015-10-21
申请号:CN201310361835.5
申请日:2013-08-19
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L15/08
CPC分类号: G10L15/18 , G10L15/08 , G10L15/28 , G10L15/32 , G10L2015/088
摘要: 本发明公开了进行语音关键词检索的方法及装置,其中,该方法在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;该方法包括:接收待处理语音数据,对待处理语音数据进行语音特征抽取;逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型;采用确定的解码模型对抽取的语音特征进行解码,得到解码后的字词识别结果;将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词。本发明方案能够支持至少两种语言的关键词检索,节省成本。
-
公开(公告)号:CN104143326A
公开(公告)日:2014-11-12
申请号:CN201310645815.0
申请日:2013-12-03
申请人: 腾讯科技(深圳)有限公司
摘要: 本发明实施方式提出一种语音命令识别方法和装置。方法包括:获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定所述语音源自所述用户时,识别所述语音中的命令词。本发明实施方式可以基于注册用户的声纹模型确定语音是否源自注册用户,从而提高安全性。
-
-
-
-
-
-
-