-
公开(公告)号:CN109545226A
公开(公告)日:2019-03-29
申请号:CN201910014557.3
申请日:2019-01-04
申请人: 平安科技(深圳)有限公司
CPC分类号: G10L15/265 , G10L15/063 , G10L15/10 , G10L15/144 , G10L15/16 , G10L25/24
摘要: 本发明实施例公开了一种语音识别方法、设备及计算机可读存储介质,其中方法包括:获取待检测的第一数字语音信号,所述第一数字语音信号是由数字密码组成的,所述数字密码由多个数字组成;对所述第一数字语音信号进行预设分割处理,得到多个第二数字语音信号;根据预设的信号处理方法对每个第二数字语音信号进行处理,确定出与每个第二数字语音信号对应的对数梅尔功率频谱,并从所述对数梅尔功率频谱中提取每个第二数字语音信号的目标特征信息;对每个第二数字语音信号的目标特征信息进行识别,得到与每个第二数字语音信号对应的目标数字;根据所述目标数字确定与所述第一数字语音信号对应的目标数字密码,以提高语音识别的性能和有效性。
-
公开(公告)号:CN109308903A
公开(公告)日:2019-02-05
申请号:CN201810868960.8
申请日:2018-08-02
申请人: 平安科技(深圳)有限公司
IPC分类号: G10L21/007 , G10L25/24 , G10L25/30
CPC分类号: G10L21/007 , G10L25/24 , G10L25/30
摘要: 本发明适用于语音处理技术领域,提供了语音模仿方法、终端设备及计算机可读存储介质,包括:将获取到的原始语音数据通过预设的生成对抗网络GAN转换成包含原始语音数据中对话内容的第一梅尔谱图,再根据预设的自回归神经网络模型,将原始语音数据转换成包含原始语音数据的语言特征的第二梅尔谱图,最后根据第一梅尔谱图、第二梅尔谱图以及预设的模仿目标的梅尔谱图,生成与模仿目标具有相同语言特征的语音数据。通过生成对抗网络和自回归神经网络模型对原始语音数据进行处理,提高了语音模拟的真实度和清晰度,保证了在语音模拟过程中的原始性。
-
公开(公告)号:CN109147818A
公开(公告)日:2019-01-04
申请号:CN201811273425.4
申请日:2018-10-30
申请人: OPPO广东移动通信有限公司
发明人: 陈岩
摘要: 本申请实施例中提供的一种声学特征提取方法、装置、存储介质及终端设备,该方法包括:获取待处理语音信号;对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;根据所述梅尔频谱数据确定梅尔频率倒谱系数。通过采用上述技术方案,可以降低提取梅尔频率倒谱系数时对每帧数据的算法的次数,可以降低提取声学特征带来的功耗。
-
公开(公告)号:CN109087648A
公开(公告)日:2018-12-25
申请号:CN201810952270.0
申请日:2018-08-21
申请人: 平安科技(深圳)有限公司
发明人: 黄锦伦
IPC分类号: G10L15/26 , G10L15/02 , G10L21/0216 , G10L21/0264 , G10L25/24
CPC分类号: G10L15/265 , G10L15/02 , G10L21/0216 , G10L21/0264 , G10L25/24 , G10L2015/025 , G10L2021/02165
摘要: 本发明公开一种柜台语音监控方法、装置、计算机设备及存储介质,该方法包括通过麦克风阵列采集原始语音数据;对原始语音数据进行数据预处理,获取目标语音数据;对目标语音数据进行声纹特征提取,获取目标声纹特征;采用预先训练的语音识别模型对目标声纹特征进行识别,获取与目标声纹特征对应的目标文字数据;对目标文字数据进行识别,获取识别结果;若识别结果为目标文字数据包含敏感词,则在目标文字数据中对敏感词进行突出处理,获取敏感文字数据;基于麦克风阵列标识和采集时间查询值班安排表,获取对应的柜台人员信息;将敏感文字数据和柜台人员信息关联存储在数据库中,以解决对柜台人员不能实时语音监控而导致处理不及时的问题。
-
公开(公告)号:CN108694949A
公开(公告)日:2018-10-23
申请号:CN201810257464.9
申请日:2018-03-27
申请人: 佛山市顺德区中山大学研究院 , 广东顺德中山大学卡内基梅隆大学国际联合研究院 , 中山大学
摘要: 本发明公开了基于重排序超向量和残差网络的说话人识别方法及其装置,方法包括:对语音样本进行信号检测,提取及优化MFCC特征;基于TDNN声学模型处理MFCC特征,得到均值中心化超向量;根据senone状态的相似性对均值中心化超向量进行重排序;以重排序后的均值中心化超向量作为外部神经网络的输入,对外部神经网络进行训练,其中输入端为残差网络,从其输出端获取说话人的深度编码特征;对说话人的深度编码特征进行PLDA建模,得到PLDA模型;计算语音样本的深度编码特征在PLDA模型上的似然得分,判断说话人是否为同一个人。本发明能够更好地学习超向量内部的连续性信息和局部相关性信息,有利于提升说话人识别性能。
-
公开(公告)号:CN108364346A
公开(公告)日:2018-08-03
申请号:CN201810189748.9
申请日:2018-03-08
申请人: 腾讯科技(深圳)有限公司 , 腾讯云计算(北京)有限责任公司
发明人: 潘伟洲
摘要: 本发明属于图像处理领域,公开了一种构建三维人脸模型的方法、装置和计算机可读存储介质,以根据人体生物特征快速、便捷地构建人脸三维模型。所述方法包括:提取目标人物的声纹特征;将目标人物的声纹特征输入已训练神经网络模型,以输出目标人物的人脸特征点距离信息;根据目标人物的人脸特征点距离信息,调整通用人脸模型以构建目标人物的三维人脸模型。本发明提供的技术方案一方面构建三维人脸模型的方法相比于现有技术要快捷、方便;另一方面,通过提取目标人物的声纹特征来构建三维人脸模型,有利于以声辨人,可以应用在军事、刑侦等特殊场合。
-
公开(公告)号:CN108305633A
公开(公告)日:2018-07-20
申请号:CN201810041764.3
申请日:2018-01-16
申请人: 平安科技(深圳)有限公司
发明人: 黄创茗
IPC分类号: G10L17/02 , G10L17/04 , G10L17/08 , G10L13/02 , G10L15/26 , G10L21/02 , G10L21/0208 , G10L25/12 , G10L25/18 , G10L25/24
CPC分类号: G10L17/02 , G10L13/02 , G10L15/265 , G10L17/04 , G10L17/08 , G10L21/0202 , G10L21/0208 , G10L25/12 , G10L25/18 , G10L25/24 , G10L2021/02087
摘要: 本申请涉及一种身份验证方法、系统、计算机设备和存储介质。所述方法包括:获取待验证语音信息和相应的用户标识;从该待验证语音信息中提取待验证的声纹特征和待验证文本;获取当前场景类型;查询与该当前场景类型匹配、且与该用户标识对应的特征模型;通过该特征模型,将该待验证文本转换为参考声纹特征;比较该待验证的声纹特征和该参考声纹特征,得到语音验证结果;当该语音验证结果表示验证通过时,则根据该待验证的声纹特征对该特征模型进行再训练;使用再训练后的特征模型更新与该当前场景类型匹配、且与该用户标识对应的特征模型。采用本方法能够在用户声音发生变化时,也能够识别出用户本人的声音,进而提高语音验证的召回率。
-
公开(公告)号:CN107808659A
公开(公告)日:2018-03-16
申请号:CN201711253194.6
申请日:2017-12-02
申请人: 宫文峰
IPC分类号: G10L15/02 , G10L15/06 , G10L15/16 , G10L21/0208 , G10L25/24 , G10L25/30 , G10L25/51 , G10L25/78 , G06K9/62
CPC分类号: G10L15/02 , G06K9/6227 , G06K9/6256 , G10L15/063 , G10L15/16 , G10L21/0208 , G10L25/24 , G10L25/30 , G10L25/51 , G10L25/78
摘要: 一种智能语音信号模式识别系统装置,包含有框体10,所述框体10设置有腔体,在框体10中设置有语音采集模块1、语音识别模块2、中央处理器3、无线信号收发装置4、显示屏8、存储器33、网络模块31、内存卡32、扬声器35和电源9,语音采集模块1包含有话筒11、无线对讲机12和固定录音器13,语音识别模块2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23,语音信号由语音采集模块1采集,采集到的信号由语音识别模块2处理,数据信号由存储器33保存,人机交互的操作流程以及结果的输出的可视化由显示屏8显示,因此,人们识别语音信号更方便。
-
公开(公告)号:CN107610717A
公开(公告)日:2018-01-19
申请号:CN201710541962.1
申请日:2017-07-05
申请人: 香港中文大学
CPC分类号: G10L21/007 , G10L13/033 , G10L15/02 , G10L15/063 , G10L15/08 , G10L15/16 , G10L15/187 , G10L25/24 , G10L2021/0135
摘要: 一种使用语音后验概率(PPG)实现音色转换的方法。首先,从目标说话者的语音中,使用与说话者无关的自动语音识别(SI-ASR)系统来提取PPG。提取到的PPG用作映射不同的说话者之间的关系。PPG包括与时间范围和语音类别范围相对应的值集合,该语音类别对应于音素状态。深度学习模型用于对PPG与目标语音声学特征之间的对应关系建模。完成模型训练之后,任何一个源语音可以作为输入,首先用SI-ASR提取PPG,然后将PPG输入到训练得到的深度学习模型即可获得转换后的语音,转换后的语音的内容与源语音相同,音色与目标说话者几乎相同。
-
公开(公告)号:CN107517207A
公开(公告)日:2017-12-26
申请号:CN201710715433.9
申请日:2017-08-20
申请人: 平安科技(深圳)有限公司
摘要: 本发明涉及一种服务器、身份验证方法及计算机可读存储介质,服务器包括存储器及与存储器连接的处理器,存储器中存储有可在处理器上运行的身份验证系统,身份验证系统被处理器执行时实现如下步骤:在收到身份验证请求后,随机向该客户端发送语音获取文本;接收客户端发送的用户播报的密码语音,识别出密码语音对应的密码字符;若密码字符与该语音获取文本对应的标准密码字符一致,则构建该密码语音的当前声纹特征向量,并根据预定的映射关系确定对应的标准声纹特征向量,利用预先确定的距离计算公式计算当前声纹特征向量与所确定的标准声纹特征向量之间的距离,根据距离对用户进行身份验证。本发明能够提高身份验证的安全性。
-
-
-
-
-
-
-
-
-