-
公开(公告)号:CN118898993A
公开(公告)日:2024-11-05
申请号:CN202310491363.9
申请日:2023-05-04
申请人: 影石创新科技股份有限公司
IPC分类号: G10L17/08 , G10L17/02 , H04N7/15 , G06F16/683 , G06F16/687 , G10L21/0216
摘要: 本发明公开了一种视频会议中发言者的识别方法、装置、系统及计算机可读存储介质,应用于视频会议技术领域。该方法包括:一种视频会议中发言者的识别方法,包括:获取视频会议场景的声音方位信息;根据声音方位信息确定出目标位置范围;获取视频会议场景中的声纹信息,并调用各声纹数据库;基于目标位置范围,根据声纹信息及各声纹数据库,确定发言者;本发明通过视频会议场景的声纹信息结合各声纹数据库,利用声纹匹配技术实现对发言者的识别,从而可以避免参会者人脸不正时造成的无法识别的问题,有利于提高识别准确度。
-
公开(公告)号:CN118887960A
公开(公告)日:2024-11-01
申请号:CN202411355582.5
申请日:2024-09-27
申请人: 北京远鉴信息技术有限公司
IPC分类号: G10L17/02 , G10L15/04 , G10L15/16 , G10L17/08 , G10L17/18 , G06N3/0464 , G06N3/0442 , G06N3/08
摘要: 本发明涉及说话人分割聚类技术领域,尤其涉及一种说话人分割聚类方法、装置、电子设备及存储介质,该方法包括:根据音频数据中在初始说话人转换点对应前一个初始音频数据段的声源方向与后一个初始音频数据段的声源方向的差值,从初始说话人转换点中筛选目标说话人转换点;基于所有目标说话人转换点分割音频数据,得到目标音频数据段;构建所有目标音频数据段的声纹向量、所有历史音频数据段对应的声纹向量之间的相似度矩阵;基于相似度矩阵对所有目标音频数据段、所有历史音频数据段进行谱聚类,得到说话人聚类结果。本申请能够对音频数据进行说话人分割聚类,提高了说话人分割聚类的准确率。
-
公开(公告)号:CN112735426B
公开(公告)日:2024-10-22
申请号:CN202011551178.7
申请日:2020-12-24
申请人: 深圳市声扬科技有限公司
发明人: 陈东鹏
摘要: 本申请涉及一种语音验证方法及系统、计算机设备和存储介质。所述方法包括:语音验证终端向外界环境发射声波,所述声波包含根据预设规则变化的第一音频信号,所述预设规则使得所述第一音频信号在不同的时刻不相同;在所述声波发射的状态下通过第一采集器采集第一语音数据,所述第一采集器安装在能够接收并采集所述声波的位置;若所述第一语音数据中包含与第一语音数据采集的时刻对应的第一音频信号,则去除所述第一语音数据中的第一音频信号,得到第二语音数据;提取所述第二语音数据的声纹特征;若所述声纹特征与预设声纹特征相匹配,则语音验证通过。本申请能够防御录音回放攻击,提高了语音验证的安全性。
-
公开(公告)号:CN118553251A
公开(公告)日:2024-08-27
申请号:CN202310217009.7
申请日:2023-02-27
申请人: 华为技术有限公司
摘要: 本申请公开了一种声纹注册方法以及装置,该方法包括:车载语音处理装置可以获取车内语音信息,以该语音信息为第一用户提供为例,该语音信息为该第一用户在车内发出的声音,如果该语音信息中的声纹确定为不属于任意一个已注册账户的声纹,则可以将该语音信息保存在缓冲池中,等待缓冲池满足预设条件就新增第一用户的账户。其中,第一用户不需要提供特定的关键词语音,日常交流即可实现账户注册,提高用户体验。
-
公开(公告)号:CN113469002B
公开(公告)日:2024-08-20
申请号:CN202110704146.4
申请日:2021-06-24
申请人: 淮阴工学院
摘要: 本发明公开了一种基于区块链互证和生物多特征识别及多源数据融合的身份识别方法,适用于普遍的身份识别方法和基于区块链互证的签到问题。这种基于ANP的数据融合方法是基于卷积神经网络来进行特征抽取并利用传统机器学习算法进行分类,最后使用区块链互证方式进行验证并将数据融合,首先接收用户发来的需要进行识别的照片和语音信息,而后调用目标检测算法对图片中的人脸信息进行识别,随后调用声纹识别算法进行识别,最后利用网络图片互证方式进行识别结果的二次验证,最后将识别的结果进行融合存储于签到系统中。本发明可以有效识别生物特征,并通过互证的方式可以准确地进行二次验证,并将验证数据进行融合,可以准确的进行签到的记录。
-
公开(公告)号:CN118447849A
公开(公告)日:2024-08-06
申请号:CN202410907437.7
申请日:2024-07-08
申请人: 无锡威达智能电子股份有限公司
发明人: 郑文戈
摘要: 本申请提供了一种基于语音识别的遥控交互方法、电子设备及存储介质,该方法包括:在预设范围内接收到第一对象发出第一语音的情况下,对第一语音进行第一分析;在根据第一分析结果确定出预设范围内存在至少两个第一对象,且均为自然人时,对第一语音进行第二分析,以得到第二分析结果;在根据第二分析结果确定出至少两个第一对象的至少两个年龄时,确定出第一时间对应的目标预设时间范围;根据目标预设时间范围和至少两个年龄确定至少两个第一对象的目标控制优先级;根据目标控制优先级对目标视听设备执行遥控交互操作。解决了相关技术中多用户环境下的遥控交互的准确性较差的技术问题,达到了提升多用户环境下的遥控交互的准确性的技术效果。
-
公开(公告)号:CN118197323A
公开(公告)日:2024-06-14
申请号:CN202410188443.1
申请日:2022-11-04
申请人: 荣耀终端有限公司
IPC分类号: G10L17/08 , G10L15/22 , G10L15/10 , H04M1/72454
摘要: 本申请提供一种语音交互方法及相关电子设备,该方法包括:接收第一语音信号;在确定第一语音信号要进行语音检测的情况下,基于第一语音信号得到语音信号数据;将语音信号数据通过语音检测模型处理,得到第一置信度;获取电子设备的加速度数据,并基于加速度数据得到电子设备的位姿信息;将位姿信息通过位姿检测模型进行处理,得到第二置信度;将目标位姿信息和语音数据通过音频‑位姿检测融合模型进行处理,得到第三置信度;基于第一置信度、第二置信度和第三置信度判断是否启动语音交互应用。通过上述方法,能够避免电子设备的语音交互应用被误唤醒。
-
公开(公告)号:CN113593580B
公开(公告)日:2024-06-14
申请号:CN202110849644.8
申请日:2021-07-27
申请人: 中国银行股份有限公司
摘要: 本申请公开了一种声纹识别方法及装置,响应于用户的来电呼叫,接通后,获取用户提供的初始语音信息。当确定需要对用户进行身份认证且确定用户已开通声纹识别功能后,将用户的初始语音信息进行信息处理和特征提取,获取用户的声学特征参数。将声学特征参数输入隐马尔可夫模型,获取模型输出的目标对数似然度概率得分。确定目标对数似然度概率得分对应的声纹识别数据集中的目标声学特征参数,进而确定目标声学特征参数对应的身份信息,将身份信息对应的用户确定为目标用户。获取目标声学特征参数和用户对应的声学特征参数的相关性。当相关性满足预设条件时,确定用户的身份识别通过。在用户无感的情况下,对用户进行了身份识别。
-
公开(公告)号:CN117912470A
公开(公告)日:2024-04-19
申请号:CN202311092503.1
申请日:2023-08-28
申请人: 杭州安恒信息技术股份有限公司
摘要: 本申请涉及一种声纹识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待识别语音数据,并提取待识别语音数据的待识别声纹特征;基于声纹特征库,获取分布式集群中各节点的声纹特征数据;将待识别声纹特征和各节点的声纹特征数据输入声纹识别模型,得到待识别声纹特征和各节点的声纹特征数据的相似度;根据相似度,确定待识别语音数据的识别结果。采用本申请的声纹识别方法,能够通过识别人员的待识别语音数据,有效地提高人员识别的准确率。
-
公开(公告)号:CN117789729A
公开(公告)日:2024-03-29
申请号:CN202311061542.5
申请日:2023-08-22
申请人: 株式会社斯巴鲁
IPC分类号: G10L17/14 , B60R11/02 , B60R16/023 , B60R16/037 , G10L17/08 , G10L15/22 , G10L15/10
摘要: 本发明提供一种智能体系统,在车辆中,通过系统侧主动地确定话题,将对话者进行特定并与其进行对话,从而使车室内的乘员的谈话变得顺畅,创设出愉快的空间。利用设置于车辆的车室内的麦克风(200)收集乘员的声音信息,控制部(150)使解析部(110)对收集到的声音信息所包含的讲话内容进行解析,确定收听者,从乘员的移动终端(300)检索最近的事件并确定话题,从扬声器(400)输出声音信息。如此,系统侧主动地确定收听者,根据最近的事件确定话题并将其输出,从而使处于车室内的乘员彼此的谈话顺畅地推进,作为结果,能够得到愉快的空间。
-
-
-
-
-
-
-
-
-