-
公开(公告)号:CN113782036B
公开(公告)日:2024-05-31
申请号:CN202111060014.9
申请日:2021-09-10
申请人: 北京声智科技有限公司
IPC分类号: G10L17/04 , G10L17/02 , G10L17/08 , G10L17/18 , G10L17/20 , G10L21/02 , G10L21/0208 , G10L25/84 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种音频质量评估方法、装置、电子设备和存储介质。该方法包括:获取测试音频;对所述测试音频进行预处理,得到N个目标音频,N为正整数;将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征;基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。本发明实施例中,不需要使用人工校对的方式对大量的音频文件进行校验,而是使用声纹模型得到测试音频对应的目标声纹特征,进而基于目标声纹特征确定测试音频的质量,以此提高了音频质量评估的效率。
-
公开(公告)号:CN118098203A
公开(公告)日:2024-05-28
申请号:CN202211489360.3
申请日:2022-11-25
申请人: 腾讯科技(深圳)有限公司
摘要: 本申请实施例公开了一种说话对象识别的方法、装置以及计算机可读存储介质,适用于人工智能,方法包括:获取说话对象识别的正样本训练数据和负样本训练数据。将正样本训练数据和负样本训练数据输入说话对象识别模型,以生成针对正样本训练数据和负样本训练数据的多个特征。通过说话对象识别模型对各个特征进行对比学习。当获取到待识别多媒体数据时,将待识别多媒体数据输入说话对象识别模型,通过说话对象识别模型生成说话对象识别特征,并基于说话对象识别特征输出待识别多媒体数据关联的待识别对象是否为目标对象的识别结果。采用本申请,可以提高说话对象识别效率,扩展结果客观性强,使用场景丰富,适用性强。
-
公开(公告)号:CN118097820A
公开(公告)日:2024-05-28
申请号:CN202310363477.5
申请日:2023-04-07
申请人: 南京创维信息技术研究院有限公司
发明人: 马云
IPC分类号: G07C9/00 , H04N7/18 , H04N7/14 , H04N21/422 , H04N21/4415 , H04N21/475 , G10L17/02 , G10L17/08 , G10L17/24
摘要: 本发明提供一种设备成本较低、安全可靠、操作较为简便的智能辅助开锁系统方案。包括可视门锁和远场语音设备;可视门锁包括摄像头、第一通讯装置和控制器;远场语音设备包括第二通讯装置、显示装置、语音提取装置和处理装置;所述处理装置对语音提取装置获取的用户语音进行特征提取,并进一步提取用户声纹表征;校验用户语音的文字内容,并根据预设声纹表征校验用户声纹表征;校验通过后,向第二通讯装置发出控制指令。本发明可有效减少传统可视对讲门禁的室内室外机投入,直接联动可视门锁和智能电视;使用语音密码和声纹同时校验,避免手机APP远程开锁二次校验复杂交互,极大地简化了原有的远程开锁流程的同时,相对保障开锁的安全性和可靠性。
-
公开(公告)号:CN113421563B
公开(公告)日:2024-05-28
申请号:CN202110687932.8
申请日:2021-06-21
申请人: 安徽听见科技有限公司
摘要: 本发明提供一种说话人标注方法、装置、电子设备和存储介质,其中方法包括:获取实时录制的语音数据流中的一段语音数据,对所述语音数据进行声纹分离,得到所述语音数据中各初始角色的声纹特征;基于各初始角色的声纹特征之间的匹配度,对所述语音数据进行角色重置,得到所述语音数据中各重置角色的声纹特征;基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度,对所述语音数据进行说话人标注,解决了录制结束后注册说话人的适配问题和在录制结束后对会议录音文件重新进行声纹提取需耗费较长时间的问题,克服了盲源分离可靠性差的问题,极大地提高了声纹分离和特征提取的可靠性和准确性,以及对语音数据进行说话人标注的效率。
-
公开(公告)号:CN111566729B
公开(公告)日:2024-05-28
申请号:CN201880083790.0
申请日:2018-12-14
申请人: 罗伯特·博世有限公司
摘要: 一种说话者识别设备包括存储器和处理器。存储器存储对应于由登记用户对关键短语的发声的所登记关键短语数据,以及登记用户的文本相关和文本无关声学说话者模型。处理器操作性地连接到存储器,并且执行指令以将说话者认证为登记用户,这包括检测对应于由说话者说出的关键短语的输入关键短语数据,使用登记用户的语音模型计算说话者的文本相关和文本无关分数,计算置信度分数,以及基于置信度分数是否指示输入关键短语数据对应于来自登记用户的语音而将说话者认证为登记用户或拒绝说话者作为登记用户。
-
公开(公告)号:CN109785846B
公开(公告)日:2024-05-28
申请号:CN201910012155.X
申请日:2019-01-07
申请人: 平安科技(深圳)有限公司
摘要: 本发明涉及人工智能领域,公开了一种单声道的语音数据的角色识别方法及装置。方法包括:对语音数据进行语音识别,以得到语音数据的录音信息和录音时长;其中,录音时长记录录音信息的时间长度;基于通用背景模型从录音信息中提取说话人的声音特征;根据录音时长确定对所述说话人的角色判断阈值;将说话人的声音特征与预存储的目标角色的声音特征进行相似度比对,以获得相似度比对结果;根据相似度比对结果与角色判断阈值之间的关系确定语音数据中的说话人是否为所述目标角色。本技术方案解决现有技术不适用实时的说话人识别、对于时长较短的录音识别正确率较低、对于角色识别没有纠错机制的问题。
-
公开(公告)号:CN118072746A
公开(公告)日:2024-05-24
申请号:CN202410471424.X
申请日:2024-04-19
申请人: 青岛科技大学
IPC分类号: G10L17/26 , G10L17/18 , G10L17/02 , G10L17/04 , G10L25/18 , G10L25/24 , G10L25/30 , G10L25/51 , G06N3/0464 , G06N3/0442 , G06N3/096
摘要: 本发明涉及海洋哺乳动物发声检测与识别领域,具体为一种基于特征融合的海洋哺乳动物叫声识别与分类方法。在Mel谱图基础上采用膨胀因果卷积来提取音频的频域特征,提高网络对频域特征提取的能力。其次,使用LSTM长短时记忆网络对音频信号的时域特征进行深入挖掘,并对频域特征提取进行有效补充,增强模型对音频数据特征的整体提取能力。最后,引用迁移学习,有效缓解了海洋哺乳动物音频训练样本稀缺的问题,从而保障了神经网络分类器在声音识别任务中的准确性,最终实现了对海洋哺乳动物声音的低延迟、高准确率识别与分类。
-
公开(公告)号:CN118072743A
公开(公告)日:2024-05-24
申请号:CN202311646416.6
申请日:2023-12-04
摘要: 本发明公开了一种基于风机缺陷螺栓声纹信息的声学识别软件系统,包括:用户管理模块、声纹采样模块、声纹识别模块以及数据结果导出模块,其中,用户管理模块采用基于Postgresql数据库进行用户数据的存储与导出;声纹采样模块采用基于sounddevice及soundfile函数框架实现麦克风设备的调用和声纹信息的采样,然后对特定格式的音频文件进行路径的自定义保存;声纹识别模块先实现音频文件的获取,再对音频文件进行分割预处理和声纹识别;数据结果导出模块以Resnet网络算法的识别结果为导向,将输出结果进行分类并保存文本数据。本发明实现对风机螺栓缺陷与紧固情况的实时检测,提升了风机螺栓工作状态监测的维护保障能力,提高风机运行的人工维护效率以及降低相关的维护成本。
-
公开(公告)号:CN118072740A
公开(公告)日:2024-05-24
申请号:CN202311866742.8
申请日:2023-12-29
申请人: 上海秒针网络科技有限公司
摘要: 本申请涉及语音处理技术领域,公开一种用于说话人聚类的方法,包括:获取待处理音频的语音特征嵌入向量序列,语音特征嵌入向量序列中包括多个语音特征嵌入向量。根据语音特征嵌入向量序列获取余弦相似度矩阵。根据第一预设聚合系数对余弦相似度矩阵进行初次聚类,获得第一备选聚类结果。根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果。这样,通过设置第一预设聚合系数和第二预设聚合系数,每次聚类时分别按照第一预设聚合系数和第二预设聚合系数去聚合,能够实现对说话人聚类的聚类时长的控制,同时提高聚类效果。本申请还公开一种用于说话人聚类的装置。
-
公开(公告)号:CN118038875A
公开(公告)日:2024-05-14
申请号:CN202410261299.X
申请日:2024-03-07
申请人: 重庆赛力斯凤凰智创科技有限公司
摘要: 本发明公开车载交互系统语音性别识别方法、系统、设备及介质,涉及车载语音识别技术领域,该方法包括以下步骤:获取初始语音数据,并根据初始语音数据生成车内语音数据;对车内语音数据预处理,得到语音频率特征矩阵;将语音频率特征矩阵输入到本发明优化后的深度特征提取模型,得到识别结果;识别结果为男性或者女性。相较于传统的车载交互系统语言性别识别方式,本发明对前期获取的初始语音数据处理,剔除数据中掺杂的噪声,生成车内语音数据,再将车内语音数据输出至本发明优化后的深度特征提取模型中,得到识别结果,通过前期的除噪声操作,避免数据中的噪声影响最终的识别结果准确性,保障用户交互体验。
-
-
-
-
-
-
-
-
-