-
公开(公告)号:CN112634880A
公开(公告)日:2021-04-09
申请号:CN202011526184.7
申请日:2020-12-22
申请人: 北京百度网讯科技有限公司
IPC分类号: G10L15/06 , G10L15/02 , G06K9/46 , G06K9/62 , G06N3/04 , G06N3/08 , G10L15/16 , G10L15/22 , G10L15/26
摘要: 本公开提供了话者识别的方法、装置、设备、存储介质及程序产品,涉及人工智能领域,具体涉及语音识别、深度学习、大数据以及云计算等领域。具体实现方案为:获取初始模型,初始模型包括特征提取网络;获取源域样本音频和目标域样本音频的样本特征,源域样本音频包括话者标签和领域标签,目标域样本音频包括领域标签;基于特征提取网络对源域样本音频和目标域样本音频的样本特征逐帧提取,得到源域子句特征和目标域子句特征;利用源域子句特征和目标域子句特征,训练初始模型,以生成话者识别模型,话者识别模型用于识别目标域待识别音频的说话者。根据本公开的技术,可以提高话者识别模型的训练效率、减少训练周期。
-
公开(公告)号:CN112786058A
公开(公告)日:2021-05-11
申请号:CN202110263981.9
申请日:2021-03-08
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了一种声纹模型训练方法、装置、设备以及存储介质,涉及语音识别、深度学习等人工智能领域。该方法的一具体实施方式包括:获取训练样本集,其中,训练样本集包括多个样本说话人的音频;提取多个样本说话人的音频的语音特征;将语音特征输入到声纹模型,得到语音特征所属的说话人的分数和部分噪声的分数;基于语音特征所属的说话人的分数和部分噪声的分数,训练声纹模型。该实施方式提供了一种基于噪声比例的训练方式训练声纹模型,降低了模型训练的计算量,提高了模型训练的效率。
-
公开(公告)号:CN112786058B
公开(公告)日:2024-03-29
申请号:CN202110263981.9
申请日:2021-03-08
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了一种声纹模型训练方法、装置、设备以及存储介质,涉及语音识别、深度学习等人工智能领域。该方法的一具体实施方式包括:获取训练样本集,其中,训练样本集包括多个样本说话人的音频;提取多个样本说话人的音频的语音特征;将语音特征输入到声纹模型,得到语音特征所属的说话人的分数和部分噪声的分数;基于语音特征所属的说话人的分数和部分噪声的分数,训练声纹模型。该实施方式提供了一种基于噪声比例的训练方式训练声纹模型,降低了模型训练的计算量,提高了模型训练的效率。
-
公开(公告)号:CN112951275B
公开(公告)日:2022-12-23
申请号:CN202110220938.4
申请日:2021-02-26
申请人: 北京百度网讯科技有限公司
IPC分类号: G10L25/51 , G10L15/26 , H04M3/51 , G06K9/62 , G06F40/289 , G06F40/216 , G06F16/38 , G06F16/35 , G06F16/33
摘要: 本申请公开了一种语音质检方法、装置、电子设备及介质,涉及数据处理领域的语音技术和深度学习技术领域。具体实现方案为:通过获取待质检音频信息,对待质检音频信息进行语音识别,得到待质检音频信息对应的多个文本段,获取多个文本段分别对应的时间戳信息,根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类,以生成多个说话人的文本内容,从多个说话人的文本内容之中获取目标说话人的文本内容,对目标说话人的文本内容进行质检。由此,通过将待质检音频信息转换为文本内容,以对识别得到坐席的文本内容进行质检,不仅实现了自动化的质检,还大大降低了人工成本,有利于提高语音质检的效率和精准度。
-
公开(公告)号:CN112735432A
公开(公告)日:2021-04-30
申请号:CN202011553762.6
申请日:2020-12-24
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了音频识别的方法、装置、电子设备及存储介质,涉及人工智能、深度学习、语音识别领域。具体实现方案为:对目标多媒体资源进行人声分离,获取目标多媒体资源中的每个发声人的声纹;将目标多媒体资源中的每个发声人的声纹与声纹库中的预存声纹进行匹配,预存声纹为目标类别人物的声纹;在匹配成功的情况下,确定目标多媒体资源中包含目标类别人物的音频。本申请通过人声分离的方式可以从目标多媒体资源中准确的获取到每个发声人的音频,进而保证每个发声人的音频均能够与声纹库中目标类别人物的声纹进行匹配,提高了目标多媒体资源的检测准确率。
-
公开(公告)号:CN112735432B
公开(公告)日:2023-05-02
申请号:CN202011553762.6
申请日:2020-12-24
申请人: 北京百度网讯科技有限公司
IPC分类号: G10L17/00 , G10L17/08 , G06N3/0464 , G06F18/22 , G06F18/23
摘要: 本申请公开了音频识别的方法、装置、电子设备及存储介质,涉及人工智能、深度学习、语音识别领域。具体实现方案为:对目标多媒体资源进行人声分离,获取目标多媒体资源中的每个发声人的声纹;将目标多媒体资源中的每个发声人的声纹与声纹库中的预存声纹进行匹配,预存声纹为目标类别人物的声纹;在匹配成功的情况下,确定目标多媒体资源中包含目标类别人物的音频。本申请通过人声分离的方式可以从目标多媒体资源中准确的获取到每个发声人的音频,进而保证每个发声人的音频均能够与声纹库中目标类别人物的声纹进行匹配,提高了目标多媒体资源的检测准确率。
-
公开(公告)号:CN112951275A
公开(公告)日:2021-06-11
申请号:CN202110220938.4
申请日:2021-02-26
申请人: 北京百度网讯科技有限公司
IPC分类号: G10L25/51 , G10L15/26 , H04M3/51 , G06K9/62 , G06F40/289 , G06F40/216 , G06F16/38 , G06F16/35 , G06F16/33
摘要: 本申请公开了一种语音质检方法、装置、电子设备及介质,涉及数据处理领域的语音技术和深度学习技术领域。具体实现方案为:通过获取待质检音频信息,对待质检音频信息进行语音识别,得到待质检音频信息对应的多个文本段,获取多个文本段分别对应的时间戳信息,根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类,以生成多个说话人的文本内容,从多个说话人的文本内容之中获取目标说话人的文本内容,对目标说话人的文本内容进行质检。由此,通过将待质检音频信息转换为文本内容,以对识别得到坐席的文本内容进行质检,不仅实现了自动化的质检,还大大降低了人工成本,有利于提高语音质检的效率和精准度。
-
公开(公告)号:CN112652313A
公开(公告)日:2021-04-13
申请号:CN202011545572.X
申请日:2020-12-24
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种声纹识别的方法、装置、设备、存储介质以及程序产品,涉及大数据以及语音识别等领域。具体实现方案为:获取多个对话音频,各对话音频中分别包括有第一发言人的语音片段和第二发言人的语音片段;根据各对话音频对应的第一发言人的身份标识,将多个对话音频划分为多组,每组对话音频对应于相同的第一发言人;对目标组对话音频中各语音片段的声纹进行聚类,得到多个聚类结果;选取包含语音片段数量最多的聚类结果确定为候选聚类结果;将候选聚类结果对应的声纹确定为目标组对话音频对应的第一发言人的声纹。根据本公开的声纹识别的方法具有人力成本低、声纹的提取及识别效率高等优点,有利于缩减声纹库的建立周期。
-
公开(公告)号:CN112633381A
公开(公告)日:2021-04-09
申请号:CN202011556574.9
申请日:2020-12-24
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了音频识别的方法及音频识别模型的训练方法,涉及人工智能、深度学习、语音识别领域。具体实现方案为:获取目标音频的帧级别的特征向量;根据目标音频的帧级别的特征向量,获取目标音频的句级别的特征向量;根据目标音频的句级别的特征向量,确定目标音频中的发声人的性别。本申请通过目标音频的帧级别的特征向量和句级别的特征向量,能够更加准确的识别出目标音频中的发声人的性别。
-
公开(公告)号:CN112966082B
公开(公告)日:2024-08-09
申请号:CN202110253354.7
申请日:2021-03-05
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/284 , G06F40/30
摘要: 本申请公开了一种音频质检方法、装置、设备以及存储介质,涉及语音识别、自然语言处理、深度学习等人工智能领域。该方法的一具体实施方式包括:获取对话音频,其中,对话音频记录客户与客服之间的对话;对对话音频进行人声分离,得到第一音频和第二音频,其中,第一音频和第二音频仅包含一位说话人;对第一音频和第二音频进行语音识别,得到第一音频对应的第一文本和第二音频对应的第二文本;对第一文本和第二文本进行角色判定,选取客服对应的文本;对客服对应的文本进行文本内容语义分类,得到对话音频的质检结果。该实施方式能够实现完全自动化的音频质检。
-
-
-
-
-
-
-
-
-