-
公开(公告)号:CN104143326B
公开(公告)日:2016-11-02
申请号:CN201310645815.0
申请日:2013-12-03
申请人: 腾讯科技(深圳)有限公司
摘要: 本发明实施方式提出一种语音命令识别方法和装置。方法包括:获取广义背景模型,并基于用户的注册语音获取用户的声纹模型;接收语音,提取所述语音的声纹特征,并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户;当确定所述语音源自所述用户时,识别所述语音中的命令词。本发明实施方式可以基于注册用户的声纹模型确定语音是否源自注册用户,从而提高安全性。
-
公开(公告)号:CN103971678B
公开(公告)日:2015-08-12
申请号:CN201310034769.0
申请日:2013-01-29
申请人: 腾讯科技(深圳)有限公司
CPC分类号: G10L15/063 , G10L15/08 , G10L2015/088
摘要: 本申请提供了关键词检测方法和装置。其中,该方法包括:使用IPA音素集合和多个不同语种的数据训练一个声学模型;其中,所述前景模型用于描述关键词对应的音素,所述背景模型用于吸收非关键词对应的音素;利用所述声学模型搭建一个对应的音素解码器;采集待检测的关键词音频样本,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列;利用所述声学模型检测待测音频,以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素,而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素。采用本发明,能够提高关键测的检测的灵活性和广泛性。
-
公开(公告)号:CN103971677B
公开(公告)日:2015-08-12
申请号:CN201310040085.1
申请日:2013-02-01
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G10L15/06
摘要: 本发明实施方式提出一种声学语言模型训练方法和装置。方法包括:利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;利用该有类别标签的第二分词数据获取声学语言模型。本发明实施方式扩大了语言模型囊括的词汇数量,从而提高了语音识别系统的识别准确率。
-
公开(公告)号:CN103971678A
公开(公告)日:2014-08-06
申请号:CN201310034769.0
申请日:2013-01-29
申请人: 腾讯科技(深圳)有限公司
CPC分类号: G10L15/063 , G10L15/08 , G10L2015/088
摘要: 本申请提供了关键词检测方法和装置。其中,该方法包括:使用IPA音素集合和多个不同语种的数据训练一个声学模型;其中,所述前景模型用于描述关键词对应的音素,所述背景模型用于吸收非关键词对应的音素;利用所述声学模型搭建一个对应的音素解码器;采集待检测的关键词音频样本,利用所述音素解码器对采集的关键词音频样本进行解码得到对应的关键词音素序列;利用所述声学模型检测待测音频,以通过所述声学模型中的前景模型吸收所述待检测音频中与所述关键词音素序列描述的音素相同的音素,而通过所述声学模型中的背景模型吸收所述待检测音频中的非关键词音素。采用本发明,能够提高关键测的检测的灵活性和广泛性。
-
公开(公告)号:CN103973441B
公开(公告)日:2016-03-09
申请号:CN201310033654.X
申请日:2013-01-29
申请人: 腾讯科技(深圳)有限公司
CPC分类号: G06F21/32 , G06F2221/2117
摘要: 本申请提供了基于音视频的用户认证方法和装置。其中,该方法包括:获取用户在进行身份注册时提供的视频图像帧、语音帧;利用视频图像帧和语音帧分别训练出人脸模型和声纹模型,将人脸模型、声纹模型与所述用户的标识对应存储至设定存储空间;在对任一用户进行认证时,采集该被认证用户的视频图像帧和语音帧,从设定存储空间找到与采集的视频图像帧匹配的人脸模型,并获取与该找到的人脸模型对应的第一用户标识,以及,从设定存储空间找到与该采集的语音帧匹配的声纹模型,并获取该找到的声纹模型对应的第二用户标识;比较第一用户标识和第二用户标识是否相同,依据比较结果验证所述被认证用户是否通过认证。采用本发明,能够避免现有用户认证带来的诸多风险问题。
-
公开(公告)号:CN104143328B
公开(公告)日:2015-11-25
申请号:CN201310355905.6
申请日:2013-08-15
申请人: 腾讯科技(深圳)有限公司
CPC分类号: G10L15/08 , G10L15/083 , G10L2015/088
摘要: 本发明实施方式提出了一种关键词检测方法和装置。方法包括:生成包含语种信息的解码网络,在该解码网络中根据语种信息对关键词进行分组;利用所述解码网络对输入语音进行关键词检测,其中当检测出的关键词之间的语种信息不一致时,对所检测出关键词设置惩罚因子;基于惩罚因子评估所检测出的关键词。本发明实施方式有效规避了语种识别可能对关键词检测带来的影响,使得在多语种混杂的语音句子中检测关键词成为可能,而且只需要单一的检测引擎就可以完成多语种的关键词检测任务。
-
公开(公告)号:CN103971684A
公开(公告)日:2014-08-06
申请号:CN201310034265.9
申请日:2013-01-29
申请人: 腾讯科技(深圳)有限公司
CPC分类号: G10L15/04 , G10L15/1815
摘要: 本申请公开了一种添加标点的方法、系统及其语言模型建立方法、装置。该方法包括:识别待处理语句中的每个词、以及每个词的语义特征;根据预先设定的特征模板以及待处理语句中包含的每个词和每个词的语义特征,确定待处理语句中出现的所有特征单元;从用于添加标点的语言模型中获取所述所有特征单元中每个特征单元与自身各种标点状态的权重的对应关系;根据所述对应关系确定待处理语句中每个词的标点状态的权重,根据每个词的标点状态的权重确定待处理语句的各种标点状态的综合权重,根据所述综合权重为待处理语句添加标点。应用本发明能够提高添加标点的准确性、或提取出语句所蕴含的信息与语句的标点之间的真实关系。
-
公开(公告)号:CN103971675A
公开(公告)日:2014-08-06
申请号:CN201310033201.7
申请日:2013-01-29
申请人: 腾讯科技(深圳)有限公司
CPC分类号: G10L15/197
摘要: 本申请公开了一种自动语音识别方法和系统,包括:对生语料进行语料分类计算,得到一个以上不同类别的分类语料;针对所述每个分类语料进行训练得到一个以上对应的分类语言模型;依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;依据声学模型和所述插值语言模型构建解码资源;依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。利用本发明,可以提高对生僻词语的语音的识别准确率。
-
公开(公告)号:CN103679452A
公开(公告)日:2014-03-26
申请号:CN201310245620.7
申请日:2013-06-20
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06Q20/40
CPC分类号: G06Q20/40145 , G07C9/00 , G10L17/24 , G10L21/06
摘要: 本发明公开了一种支付验证方法、装置及系统,属于计算机技术领域。所述方法包括:接收终端发送的支付验证请求;检测支付验证请求中的识别信息与预存的识别信息是否相同;若相同,则提取当前语音特征;将所述当前语音特征与预存的声纹模型进行匹配;若当前语音特征与预存的声纹模型匹配成功,则向终端发送用于允许支付操作的验证答复信息。本发明通过声纹模型对当前语音信号进行确认,在确认成功后,允许后续支付操作;解决了现有技术在支付操作的过程中,服务器需要发送验证短信进而增加运营成本的问题;达到了仅利用语音信号的声纹识别就可极大地提高支付安全性的效果且极大地降低了因验证短信带来的运营成本。
-
公开(公告)号:CN108288467A
公开(公告)日:2018-07-17
申请号:CN201710425219.X
申请日:2017-06-07
申请人: 腾讯科技(深圳)有限公司
摘要: 本发明实施例公开了一种语音识别方法,包括:在持续获取语音信号的过程中,获取当前账户对应的自定义语料;对所述自定义语料进行分析处理,构建相应的至少一个自定义解码模型;将所述至少一个自定义解码模型加载到预先存储的通用解码模型中,生成新的解码模型;对所述语音信号采用所述新的解码模型进行解码,获得语音识别结果。本发明实施例同时还提供一种语音识别装置及语音识别引擎。
-
-
-
-
-
-
-
-
-