-
公开(公告)号:CN113327620B
公开(公告)日:2024-10-11
申请号:CN202010132716.2
申请日:2020-02-29
申请人: 华为技术有限公司
摘要: 本申请提供一种声纹识别的方法和装置。该声纹识别的方法包括:获取待识别用户的待识别语音信号;对所述待识别语音信号进行情感识别,获取所述待识别语音信号对应的第一情绪;获取已注册用户在所述第一情绪对应的声纹模板,当第一情绪对应不同情绪时,所述不同情绪对应的声纹模板不同;根据所述待识别语音信号和所述声纹模板,判断所述待识别用户是否为所述已注册用户。因此,本申请实施例通过将相同情绪下的待识别语音信号与声纹模板进行匹配,能够有助于降低用户的情绪波动对声纹识别的影响,从而增强声纹识别的鲁棒性。
-
公开(公告)号:CN118590617A
公开(公告)日:2024-09-03
申请号:CN202410816202.7
申请日:2024-06-24
申请人: 闻泰通讯股份有限公司
发明人: 王萌娟
IPC分类号: H04N7/18 , H04N5/76 , G10L17/00 , G10L17/02 , G10L17/06 , G08B21/24 , G08B3/10 , G08B5/36 , H04N23/60 , G10L15/22 , G10L15/26
摘要: 本申请实施例公开了一种监控提示方法及装置、设备、存储介质,该方法应用于应用终端,包括:获取监控终端发送的监控对象的语音数据;对语音数据进行声纹识别,判断监控对象是否为目标对象,目标对象为预先存储在对象数据库中的对象,对象数据库包括对象以及对象对应的声纹信息;在监控对象为目标对象的情况下,根据语音数据,生成提示信息,提示信息用于提示监控对象的说话内容,提示信息包括语音提示信息或文本提示信息。能够在通过声纹识别判断监控对象为预先记录的目标对象的情况下,向应用终端传递提示信息,提高监控终端的监控对象与应用终端用户之间的沟通便利性和效率。
-
公开(公告)号:CN118588091A
公开(公告)日:2024-09-03
申请号:CN202410747287.8
申请日:2024-06-11
申请人: 上海蜜度数字科技有限公司
IPC分类号: G10L17/06 , G10L17/04 , G10L15/197 , G10L15/02 , G10L25/03
摘要: 本发明提供一种多说话人语音识别方法、系统、存储介质及电子设备,所述方法包括以下步骤:获取音频数据,并设置特殊字符;提取所述音频数据的音频特征、提取特殊字符特征;基于提取的特征构建输入特征矩阵;将所述输入特征矩阵输入大语言模型以获取融合特征矩阵;对所述融合特征矩阵进行解码,获取说话人识别内容;根据所述融合特征矩阵中所述特殊字符对应的向量判断所述音频数据是否仍包含其他说话人;若是,基于所述说话人识别内容和所述输入特征矩阵来获取更新的输入特征矩阵,并基于所述更新的输入特征矩阵获取其他说话人识别内容。本发明的多说话人语音识别方法提高了多人语音识别的准确性和效率,适用于复杂音频环境下的语音处理。
-
公开(公告)号:CN118568701A
公开(公告)日:2024-08-30
申请号:CN202411025536.9
申请日:2024-07-30
申请人: 青岛大学
摘要: 本发明涉及计算机身份识别技术领域,具体公开一种基于安全计算机的安全认证方法,用户通过声音采集设备提供其初始语音样本,安全计算机对采集到的初始语音样本进行分析和处理,提取用户的声纹矢量,并将其与用户的身份信息共同存储在安全存储单元中,当用户需要进行身份认证时,用户再次通过声音采集设备提供其当前语音样本,安全计算机对当前语音样本进行处理和分析,提取当前语音样本对应的声纹矢量,并将其与安全存储单元中已注册的用户声纹矢量进行比对,进而确定用户对应当前语音样本的匹配系数,有效地减少被冒名顶替的风险,用户可以通过简单的语音指令来安全访问服务,无需记忆复杂的密码或携带物理密钥,极大地提高了用户体验和便捷性。
-
公开(公告)号:CN118522290A
公开(公告)日:2024-08-20
申请号:CN202410970241.2
申请日:2024-07-19
申请人: 北京远鉴信息技术有限公司
摘要: 本申请提供了一种语音对抗样本生成方法、装置、电子设备及存储介质,包括:将目标语音信号输入至声纹分类模型以及鉴伪分类模型之中,确定出声纹损失值以及鉴伪损失值;基于梯度反向传播计算,确定出声纹维度上的第一扰动信号以及鉴伪维度上的第一扰动信号;将初始对抗样本以及目标语音信号输入至音质评价模型之中,确定出质量维度上的第一扰动信号,基于声纹分类模型以及鉴伪分类模型对初始对抗样本进行处理,确定出声纹维度上的第二扰动信号以及鉴伪维度上的第二扰动信号,对多个扰动信号进行加权融合,确定出目标语音信号的目标对抗样本。实现了在保证高音频相似度和音质的前提下,大大减少了生成对抗样本的时间。
-
公开(公告)号:CN112735439B
公开(公告)日:2024-08-09
申请号:CN202011592753.8
申请日:2016-01-06
申请人: 微软技术许可有限责任公司
发明人: A.W.罗维特
IPC分类号: G10L17/06 , G10L17/04 , G10L17/20 , G10L21/0208 , G10L21/0216 , G01H7/00 , G10L15/30
摘要: 本公开涉及环境调节的讲话人标识。对计算系统的用户身份进行计算机化估计。所述系统估计在计算系统处接收的接收到的用户声音的环境特定的变更。所述系统通过使用对应的依赖用户的音频模型,估计接收到的用户声音是否来自特定用户。所述依赖用户的音频模型可被存储在可访问的多系统储存装置,以使得所述方法可以对于给定的用户跨多个系统的以及在用户过去从没有训练成识别所述用户的系统上执行。这减小了或甚至消除了用户训练系统来识别用户话音的需要,并且允许多个系统利用由用户执行的之前的训练。
-
公开(公告)号:CN118430542A
公开(公告)日:2024-08-02
申请号:CN202410888291.6
申请日:2024-07-04
申请人: 吉林大学
摘要: 本申请涉及语音处理技术领域,具体涉及一种数字化回忆干预系统的智能语音互动方法,该方法包括:语音采集老年音频向量和青年音频向量;对老年音频向量进行语音增强,计算语音模糊度;计算基频频移距离,得到频移后老年语谱图;计算共振峰增强包络线;计算增强后包络线,得到共振峰增强频谱图;得到增强老年语谱图;对增强老年语谱图进行语音识别,获得文本数据;并与语料库内的文本数据进行对比,找到匹配的回答文本数据;将回答文本数据进行语音合成,完成语音交互和对老年人的回忆干预。本申请可降低老年人与青年人的语音特征差异,提高老年人语音识别的准确性。
-
公开(公告)号:CN117789713B
公开(公告)日:2024-08-02
申请号:CN202311689237.0
申请日:2023-12-11
IPC分类号: G10L15/22 , G10L15/08 , G10L17/02 , G10L17/06 , G16H10/20 , G16H10/60 , G06F18/241 , G06N3/0464
摘要: 本发明提供一种基于语音识别的健康素养调查质量控制方法及系统,涉及音频处理领域;方法包括:预处理录音文件,确定文件中的多个语音对象;根据录音文件的时间进程,划分并确定各语音对象的单人语音片段及片段间的对应关系;根据各语音对象的单人语音片段及片段间的对应关系,自动语音识别受测者答复任一问题的单人语音片段中的答题要点;根据答题要点,判断录音文件中是否存在不合格因素;选择合格的录音文件进行健康素养调查结果的分析。本发明根据语音对象和答题要点的识别结果,以及预先学习的问卷问题及答复点校验录音文件是否合格,实现自动判断识别调查过程中不合格因素,提高录音文件质量控制的效率。
-
公开(公告)号:CN118314903A
公开(公告)日:2024-07-09
申请号:CN202211727880.3
申请日:2022-12-30
申请人: 北京嘀嘀无限科技发展有限公司
摘要: 根据本公开的实施例,提供了用于语音处理的方法、装置、设备、介质和程序产品。该方法包括提取与目标说话人相关的多个参考语音的多个参考声纹特征;基于多个参考声纹特征确定目标说话人的目标声纹特征;提取目标语音的混淆声纹特征;以及基于混淆声纹特征与目标声纹特征的相似度,检测目标语音中属于目标说话人的语音部分。由此,在没有预存目标说话人的声纹特征的情况下,也能够确认目标语音中属于目标说话人的语音部分,应用场景更灵活。
-
公开(公告)号:CN109785846B
公开(公告)日:2024-05-28
申请号:CN201910012155.X
申请日:2019-01-07
申请人: 平安科技(深圳)有限公司
摘要: 本发明涉及人工智能领域,公开了一种单声道的语音数据的角色识别方法及装置。方法包括:对语音数据进行语音识别,以得到语音数据的录音信息和录音时长;其中,录音时长记录录音信息的时间长度;基于通用背景模型从录音信息中提取说话人的声音特征;根据录音时长确定对所述说话人的角色判断阈值;将说话人的声音特征与预存储的目标角色的声音特征进行相似度比对,以获得相似度比对结果;根据相似度比对结果与角色判断阈值之间的关系确定语音数据中的说话人是否为所述目标角色。本技术方案解决现有技术不适用实时的说话人识别、对于时长较短的录音识别正确率较低、对于角色识别没有纠错机制的问题。
-
-
-
-
-
-
-
-
-