说话人分割模型的训练方法、说话人分割方法及相关设备

    公开(公告)号:CN117558279A

    公开(公告)日:2024-02-13

    申请号:CN202210927372.3

    申请日:2022-08-03

    IPC分类号: G10L17/02 G10L17/04 G10L17/14

    摘要: 本申请公开了一种说话人分割模型的训练方法、说话人分割方法及相关设备。所述训练方法包括:通过待训练的说话人分割模型的多级特征表示网络,对样本音频包含的每个音频片段的语音特征进行特征表示,得到每个音频片段的多级特征向量;基于预设聚类算法和每个音频片段的第一级特征向量,确定每个音频片段所属的第一说话人;基于说话人分割模型的语音识别网络和每个音频片段的至少一级特征向量,确定每个音频片段所属的第二说话人;基于样本音频包含的每个音频片段所属的第一说话人及第二说话人以及每个音频片段对应的说话人标签,确定说话人分割模型的分割损失;基于分割损失调整说话人分割模型的模型参数,以得到目标说话人分割模型。

    语音识别模型的训练方法、装置、电子设备及存储介质

    公开(公告)号:CN117496981A

    公开(公告)日:2024-02-02

    申请号:CN202310770843.9

    申请日:2023-06-26

    摘要: 本公开实施例提供了语音识别模型的训练方法、装置、电子设备以及存储介质,该方法包括:获取语音样本并输入待训练的语音识别模型进行训练;训练后模型输出的语音识别结果用于确定待处理语音是否由预设注册用户发出及待处理语音对应的文本是否包括预设文本;待训练的语音识别模型包括特征提取模块、编码模块、融合模块以及识别模块;特征提取模块用于根据语音样本进行特征提取处理,得到声纹特征信息;编码模块用于根据声纹特征信息进行编码处理,得到文本向量;融合模块用于根据声纹特征信息和文本向量进行融合处理,得到融合特征信息;识别模块用于根据融合特征信息进行识别处理,得到语音识别结果。以此,能够提高模型的识别准确性。

    说话人分割模型的训练方法、说话人分割方法及装置

    公开(公告)号:CN116416999A

    公开(公告)日:2023-07-11

    申请号:CN202111663040.0

    申请日:2021-12-30

    IPC分类号: G10L17/04 G10L25/24

    摘要: 本申请实施例提供了一种说话人分割模型的训练方法、说话人分割方法及装置,其中训练方法包括:将N个无标注音频数据的MFCC特征输入第一说话人分割模型中进行说话人分割处理,得到多个音频段;利用多个音频段对待训练模型进行训练处理,得到数据处理模型;将N个无标注音频数据输入数据处理模型中进行数据处理,输出每个无标注音频数据的标注数据;利用N个无标注音频数据和标注数据对第一说话人分割模型进行训练,得到第二说话人分割模型;第一说话人分割模型基于M个第一有标注音频数据训练所得,N大于M。通过本申请实施例,提升了第二说话人分割模型的准确性、鲁棒性及泛化能力。

    声纹特征构建方法、身份识别方法及相关装置

    公开(公告)号:CN116129872A

    公开(公告)日:2023-05-16

    申请号:CN202210846819.4

    申请日:2022-07-19

    IPC分类号: G10L15/01 G10L15/08 G10L25/51

    摘要: 本申请公开了一种声纹特征构建方法、身份识别方法及相关装置。声纹特征构建方法包括:基于预设声纹聚类算法,从目标说话人对应的多个第一样本对话音频中确定候选对话音频;将候选对话音频划分为多个语音片段;通过语音识别模型对每个语音片段进行识别,得到每个语音片段对应的识别结果,每个语音片段对应的识别结果包括每个语音片段被识别为多个候选说话人中每个候选说话人的识别结果,多个候选说话人包括目标说话人;基于多个语音片段中每个语音片段分别对应的识别结果,删除候选对话音频的多个语音片段中的噪声语音片段,得到目标对话音频;基于目标对话音频构建目标说话人的参考声纹特征,并添加到构建声纹库。

    声纹聚类方法、声纹识别方法、装置及电子设备

    公开(公告)号:CN114512135A

    公开(公告)日:2022-05-17

    申请号:CN202210049511.7

    申请日:2022-01-17

    摘要: 本申请提供一种声纹聚类方法、声纹识别方法、装置及电子设备,声纹聚类方法,包括:对语音声纹特征向量进行转置操作,得到转置操作后的语音声纹特征向量;对语音声纹特征向量和转置操作后的语音声纹特征向量进行内积操作,得到交叉相似度矩阵,交叉相似度矩阵包括多行第一特征向量;遍历第一特征向量,并计算多行第一特征向量中的目标特征向量与其他行第一特征向量之间的相似度;将目标特征向量和第二特征向量进行聚类,得到目标语音声纹特征向量。这样,提高了采用目标语音声纹特征向量进行说话人查找或者训练的准确度。

    声纹识别模型训练方法、身份识别方法、装置及电子设备

    公开(公告)号:CN114387978A

    公开(公告)日:2022-04-22

    申请号:CN202210032575.6

    申请日:2022-01-12

    IPC分类号: G10L17/04 G10L17/18

    摘要: 本申请实施例提供了一种声纹识别模型训练方法、身份识别方法、装置及电子设备,声纹识别模型训练方法包括:利用训练样本集对待训练模型进行训练,得到声纹识别模型;其中,所述待训练模型包括多个依次连接的第一残差块,每个所述第一残差块均包括第一卷积层和第一跳连连接;在模型训练过程中,每个所述第一残差块的具体处理方式有:通过所述第一卷积层将输入的特征向量进行处理,以及输出处理后的特征向量;将通过所述第一跳连连接传输至所述第一卷积层的输出端的特征向量和所述第一卷积层输出的特征向量进行融合,以及输出融合后的特征向量。本申请实施例提升了声纹识别模型进行声纹识别的准确度。

    网络模型训练方法、语音识别处理方法及相关设备

    公开(公告)号:CN112735388B

    公开(公告)日:2021-11-09

    申请号:CN202011577841.0

    申请日:2020-12-28

    摘要: 本发明提供一种网络模型训练方法、语音识别处理方法及相关设备,该方法包括:利用标注的样本数据对待训练语音识别网络模型进行迭代训练,得到语音识别网络模型;待训练语音识别网络模型包括延时神经网络层、第一残差层、N个第二残差层和N‑1个浅层特征融合网络层,浅层特征融合网络层用于将N个第二残差层输出的N个不同尺度特征向量进行融合得到N个第一特征向量,且N个第一特征向量与延时神经网络层的输出和第一残差层的输出进行融合得到第二特征向量。这样可以利用训练得到的语音识别网络模型进行声纹特征识别和情绪特征识别,从而降低用户情绪检测的成本以及提高用户身份验证的可靠性。

    知识蒸馏方法、语音识别处理方法及相关设备

    公开(公告)号:CN113314126A

    公开(公告)日:2021-08-27

    申请号:CN202110727239.9

    申请日:2021-06-29

    摘要: 本申请提供一种知识蒸馏方法、语音识别处理方法及相关设备,该方法包括:对知识蒸馏教师网络进行训练,获得目标教师网络;根据目标教师网络和预设的知识蒸馏损失函数对知识蒸馏学生网络进行蒸馏训练,获得目标学生网络,目标教师网络和知识蒸馏学生网络均包括N个特征提取网络层;其中,在蒸馏训练过程中,每一特征提取网络层输出的特征向量包括M个第一特征值,M个第一特征值基于一一对应的M个第二特征值获得,M个第二特征值为特征提取网络层中进行特征映射后获得的特征值,在第二特征值大于或等于第一预设值的情况下,与第二特征值对应的第一特征值置为第二特征值,第一预设值为负数。采用本申请实施例可提升模型进行声纹识别的速度。

    语音识别模型训练、语音识别方法、装置和电子设备

    公开(公告)号:CN118658463A

    公开(公告)日:2024-09-17

    申请号:CN202410034887.X

    申请日:2024-01-09

    发明人: 孟庆林

    摘要: 本申请提供一种语音识别模型训练、语音识别方法、装置和电子设备,涉及计算机领域。在该方法中,该语音识别模型训练方法包括:通过第一语音识别模型的编码器对样本语音数据进行处理,得到声学特征数据;通过第一语音识别模型的解码器对所述声学特征数据进行处理,得到预测文本数据;基于第一融合数据,确定总损失值,第一融合数据是对声学特征数据和预测文本数据进行融合得到的;基于总损失值,调整第一语音识别模型的模型参数,获得第二语音识别模型。本申请能提高语音识别模型识别语音的准确性。

    语音识别模型的训练方法及训练装置

    公开(公告)号:CN118072724A

    公开(公告)日:2024-05-24

    申请号:CN202211475663.X

    申请日:2022-11-23

    IPC分类号: G10L15/22 G10L15/06 G10L15/16

    摘要: 本公开提供一种语音识别模型的训练方法及训练装置,该方法包括:利用有监督的第一语音数据对目标语音识别模型进行模型训练,目标语音识别模型包括目标编码器和目标解码器;在每一轮模型训练过程中,根据目标编码器中的中间层的第一输出损失和目标编码器的第二输出损失确定目标编码器的总输出损失;根据目标解码器中的中间层的第三输出损失和目标解码器的第四输出损失确定目标解码器的总输出损失;根据目标编码器的总输出损失和目标解码器的总输出损失,确定目标语音识别模型的总输出损失;根据目标语音识别模型的总输出损失对目标语音识别模型的模型参数进行更新。本公开还提供一种语音识别方法、语音识别装置、电子设备、计算机可读存储介质。