音频质量评估方法、装置、电子设备和存储介质

    公开(公告)号:CN113782036B

    公开(公告)日:2024-05-31

    申请号:CN202111060014.9

    申请日:2021-09-10

    发明人: 陈孝良 冯大航

    摘要: 本发明公开了一种音频质量评估方法、装置、电子设备和存储介质。该方法包括:获取测试音频;对所述测试音频进行预处理,得到N个目标音频,N为正整数;将所述N个目标音频输入至训练完成的声纹模型中,得到所述N个目标音频一一对应的N个目标声纹特征;基于所述N个目标声纹特征和预设的注册声纹特征,确定所述测试音频的质量。本发明实施例中,不需要使用人工校对的方式对大量的音频文件进行校验,而是使用声纹模型得到测试音频对应的目标声纹特征,进而基于目标声纹特征确定测试音频的质量,以此提高了音频质量评估的效率。

    说话对象识别的方法、装置以及计算机可读存储介质

    公开(公告)号:CN118098203A

    公开(公告)日:2024-05-28

    申请号:CN202211489360.3

    申请日:2022-11-25

    摘要: 本申请实施例公开了一种说话对象识别的方法、装置以及计算机可读存储介质,适用于人工智能,方法包括:获取说话对象识别的正样本训练数据和负样本训练数据。将正样本训练数据和负样本训练数据输入说话对象识别模型,以生成针对正样本训练数据和负样本训练数据的多个特征。通过说话对象识别模型对各个特征进行对比学习。当获取到待识别多媒体数据时,将待识别多媒体数据输入说话对象识别模型,通过说话对象识别模型生成说话对象识别特征,并基于说话对象识别特征输出待识别多媒体数据关联的待识别对象是否为目标对象的识别结果。采用本申请,可以提高说话对象识别效率,扩展结果客观性强,使用场景丰富,适用性强。

    利用远场语音的声纹识别辅助开锁系统、方法及存储介质

    公开(公告)号:CN118097820A

    公开(公告)日:2024-05-28

    申请号:CN202310363477.5

    申请日:2023-04-07

    发明人: 马云

    摘要: 本发明提供一种设备成本较低、安全可靠、操作较为简便的智能辅助开锁系统方案。包括可视门锁和远场语音设备;可视门锁包括摄像头、第一通讯装置和控制器;远场语音设备包括第二通讯装置、显示装置、语音提取装置和处理装置;所述处理装置对语音提取装置获取的用户语音进行特征提取,并进一步提取用户声纹表征;校验用户语音的文字内容,并根据预设声纹表征校验用户声纹表征;校验通过后,向第二通讯装置发出控制指令。本发明可有效减少传统可视对讲门禁的室内室外机投入,直接联动可视门锁和智能电视;使用语音密码和声纹同时校验,避免手机APP远程开锁二次校验复杂交互,极大地简化了原有的远程开锁流程的同时,相对保障开锁的安全性和可靠性。

    说话人标注方法、装置、电子设备和存储介质

    公开(公告)号:CN113421563B

    公开(公告)日:2024-05-28

    申请号:CN202110687932.8

    申请日:2021-06-21

    摘要: 本发明提供一种说话人标注方法、装置、电子设备和存储介质,其中方法包括:获取实时录制的语音数据流中的一段语音数据,对所述语音数据进行声纹分离,得到所述语音数据中各初始角色的声纹特征;基于各初始角色的声纹特征之间的匹配度,对所述语音数据进行角色重置,得到所述语音数据中各重置角色的声纹特征;基于各重置角色的声纹特征和各注册说话人的声纹特征之间的匹配度,对所述语音数据进行说话人标注,解决了录制结束后注册说话人的适配问题和在录制结束后对会议录音文件重新进行声纹提取需耗费较长时间的问题,克服了盲源分离可靠性差的问题,极大地提高了声纹分离和特征提取的可靠性和准确性,以及对语音数据进行说话人标注的效率。

    用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识

    公开(公告)号:CN111566729B

    公开(公告)日:2024-05-28

    申请号:CN201880083790.0

    申请日:2018-12-14

    IPC分类号: G10L17/02 G10L17/10 G10L17/12

    摘要: 一种说话者识别设备包括存储器和处理器。存储器存储对应于由登记用户对关键短语的发声的所登记关键短语数据,以及登记用户的文本相关和文本无关声学说话者模型。处理器操作性地连接到存储器,并且执行指令以将说话者认证为登记用户,这包括检测对应于由说话者说出的关键短语的输入关键短语数据,使用登记用户的语音模型计算说话者的文本相关和文本无关分数,计算置信度分数,以及基于置信度分数是否指示输入关键短语数据对应于来自登记用户的语音而将说话者认证为登记用户或拒绝说话者作为登记用户。

    单声道的语音数据的角色识别方法及装置

    公开(公告)号:CN109785846B

    公开(公告)日:2024-05-28

    申请号:CN201910012155.X

    申请日:2019-01-07

    摘要: 本发明涉及人工智能领域,公开了一种单声道的语音数据的角色识别方法及装置。方法包括:对语音数据进行语音识别,以得到语音数据的录音信息和录音时长;其中,录音时长记录录音信息的时间长度;基于通用背景模型从录音信息中提取说话人的声音特征;根据录音时长确定对所述说话人的角色判断阈值;将说话人的声音特征与预存储的目标角色的声音特征进行相似度比对,以获得相似度比对结果;根据相似度比对结果与角色判断阈值之间的关系确定语音数据中的说话人是否为所述目标角色。本技术方案解决现有技术不适用实时的说话人识别、对于时长较短的录音识别正确率较低、对于角色识别没有纠错机制的问题。

    用于说话人聚类的方法及装置
    49.
    发明公开

    公开(公告)号:CN118072740A

    公开(公告)日:2024-05-24

    申请号:CN202311866742.8

    申请日:2023-12-29

    发明人: 魏刘巍 高翔

    IPC分类号: G10L17/02 G10L17/16 G10L17/18

    摘要: 本申请涉及语音处理技术领域,公开一种用于说话人聚类的方法,包括:获取待处理音频的语音特征嵌入向量序列,语音特征嵌入向量序列中包括多个语音特征嵌入向量。根据语音特征嵌入向量序列获取余弦相似度矩阵。根据第一预设聚合系数对余弦相似度矩阵进行初次聚类,获得第一备选聚类结果。根据第二预设聚合系数对第一备选聚类结果进行二次聚类,获得目标聚类结果。这样,通过设置第一预设聚合系数和第二预设聚合系数,每次聚类时分别按照第一预设聚合系数和第二预设聚合系数去聚合,能够实现对说话人聚类的聚类时长的控制,同时提高聚类效果。本申请还公开一种用于说话人聚类的装置。

    车载交互系统语音性别识别方法、系统、设备及介质

    公开(公告)号:CN118038875A

    公开(公告)日:2024-05-14

    申请号:CN202410261299.X

    申请日:2024-03-07

    发明人: 林守彪 刘楚雄

    摘要: 本发明公开车载交互系统语音性别识别方法、系统、设备及介质,涉及车载语音识别技术领域,该方法包括以下步骤:获取初始语音数据,并根据初始语音数据生成车内语音数据;对车内语音数据预处理,得到语音频率特征矩阵;将语音频率特征矩阵输入到本发明优化后的深度特征提取模型,得到识别结果;识别结果为男性或者女性。相较于传统的车载交互系统语言性别识别方式,本发明对前期获取的初始语音数据处理,剔除数据中掺杂的噪声,生成车内语音数据,再将车内语音数据输出至本发明优化后的深度特征提取模型中,得到识别结果,通过前期的除噪声操作,避免数据中的噪声影响最终的识别结果准确性,保障用户交互体验。