-
公开(公告)号:CN118588062A
公开(公告)日:2024-09-03
申请号:CN202310207425.9
申请日:2023-03-03
申请人: 马上消费金融股份有限公司
摘要: 本申请公开了一种语音识别模型的训练方法、语音识别方法及相关设备。所述训练方法包括:获取样本语音数据的语音特征和标注文本,标注文本用于表示样本语音数据的真实内容;通过语音识别模型的编码器对所述语音特征进行编码处理得到中间特征向量,以及对所述中间特征向量进行降维处理,以得到所述样本语音数据的语音特征向量;通过语音识别模型的解码器基于所述语音特征向量进行语音识别,得到所述样本语音数据的识别文本;基于所述样本语音数据的标注文本和识别文本,调整所述语音识别模型的模型参数。通过本申请实施例的技术方案,可以在保证语音识别模型的识别准确率的前提下,降低语音识别模型的处理时长,从而提高语音识别模块的识别效率。
-
公开(公告)号:CN117494762A
公开(公告)日:2024-02-02
申请号:CN202310773161.3
申请日:2023-06-27
申请人: 马上消费金融股份有限公司
IPC分类号: G06N3/0455 , G06N3/08
摘要: 本申请公开了一种学生模型的训练方法、素材处理方法、装置及电子设备,属于计算机领域。所述学生模型的训练方法包括:获取待训练的学生模型;通过已经训练好的目标教师模型对所述待训练的学生模型进行蒸馏训练,得到第一目标学生模型;其中,所述第一目标学生模型包括编码器和解码器;冻结所述目标教师模型的参数和所述第一目标学生模型中所述编码器的参数,通过所述目标教师模型对所述第一目标学生模型中所述解码器的参数进行蒸馏训练,得到第二目标学生模型。
-
公开(公告)号:CN117292679A
公开(公告)日:2023-12-26
申请号:CN202210687661.0
申请日:2022-06-16
申请人: 马上消费金融股份有限公司
摘要: 提供了一种语音识别模型的训练方法、语音识别方法及相关设备。所述训练方法包括:获取训练数据;所述训练数据包括第一语音数据、所述第一语音数据对应的第一文本标签、第二语音数据以及所述第二语音数据对应的第二文本标签;利用所述第一语音数据和所述第一文本标签对初始语音识别模型进行训练,并基于训练后的初始语音识别模型构建学生模型;获取预训练语言模型,并基于所述预训练语言模型构建教师模型;利用所述第二语音数据、所述第二文本标签和所述教师模型对所述学生模型进行训练,并根据训练完成的学生模型确定目标语音识别模型,所述目标语音识别模型用于进行语音识别。
-
公开(公告)号:CN115346534A
公开(公告)日:2022-11-15
申请号:CN202110527175.8
申请日:2021-05-14
申请人: 马上消费金融股份有限公司
摘要: 本申请提供一种声纹识别模型训练方法、声纹识别方法及相关设备,方法包括:将有标注的第一样本数据输入至待训练模型包括的编码网络,进行第N次迭代训练;通过第N次迭代训练后的编码网络将无标注的第二样本数据输入至解码网络,进行第N+1次迭代训练;将第二样本数据输入至前馈网络,进行第N+1次迭代训练;在第一向量和第二向量的均方误差小于第一阈值的情况下,得到声纹识别模型;第一向量是进行第N+1次迭代训练后的解码网络输出的,第二向量是进行第N+1次迭代训练后的前馈网络输出的,声纹识别模型包括进行第N次迭代训练后的编码网络、进行第N+1次迭代训练后的解码网络、以及进行第N+1次迭代训练后的前馈网络。这样可以降低模型训练的难度。
-
公开(公告)号:CN114822558A
公开(公告)日:2022-07-29
申请号:CN202210414731.5
申请日:2022-04-15
申请人: 马上消费金融股份有限公司
摘要: 本申请公开了声纹识别方法、装置、电子设备及存储介质。涉及人工智能领域。本方法利用声纹识别网络对初始音频数据集提取得到多个声纹特征向量,根据声纹特征向量是否来源于同一个人将其划分为至少一个向量集。根据向量集内每个声纹特征向量与向量集的均值向量之间的相似度对初始音频数据集进行数据筛选,因此通过控制相似度即可得到更加精准的说话人标注数据。在对用户进行声纹识别时,可使用经过数据筛选的目标音频数据集训练得到的声纹识别模型来提取声纹特征。经过上述数据筛选方法筛选得到目标音频数据集是精准的说话人标注数据,因此在利用目标音频数据集训练的声纹识别模型识别用户的声纹特征数据时,能更加准确地识别出用户的身份。
-
公开(公告)号:CN114596845A
公开(公告)日:2022-06-07
申请号:CN202210385772.6
申请日:2022-04-13
申请人: 马上消费金融股份有限公司
摘要: 本申请公开了一种语音识别模型的训练方法、语音识别方法及装置。所述训练方法包括:获取混合数据集及其中的语音数据的标注文本,混合数据集包括第一样本普通话语音数据和样本方言语音数据;将混合数据集及其中的语音数据的标注文本及语种标签输入初始语音识别模型,得到混合数据集中的语音数据的识别结果,内容识别网络用于对语音数据进行编码得到特征向量,以及基于语音数据的特征向量进行语音识别以得到识别文本,语种分类器用于基于语音数据的特征向量进行语音识别以得到识别语种;基于混合数据集中的语音数据的识别结果和语音数据的标注文本及语种标签,确定总识别损失;基于总识别损失,对初始语音识别模型进行迭代训练,得到语音识别模型。
-
公开(公告)号:CN113889122A
公开(公告)日:2022-01-04
申请号:CN202111151214.5
申请日:2021-09-29
申请人: 马上消费金融股份有限公司
摘要: 本申请提供一种声纹识别模型训练方法、声纹识别方法及相关设备,声纹识别模型训练方法,包括:将声纹数据依次输入至待训练模型进行多次迭代训练,得到声纹识别模型;其中,所述待训练模型包括L层网络层,L为大于1的整数;在第N次的迭代训练的过程中,包括以下步骤:将所述声纹数据依次经过L层所述网络层进行特征映射,输出声纹向量;在所述声纹向量对应的输出值满足预设条件的情况下,将经过第N次的迭代训练之后的待训练模型确定为声纹识别模型,其中,N为正整数。这样,提高了对样本的利用率,且提高了训练得到的声纹识别模型的准确度。
-
公开(公告)号:CN113593579A
公开(公告)日:2021-11-02
申请号:CN202110838405.2
申请日:2021-07-23
申请人: 马上消费金融股份有限公司
摘要: 本申请实施例提供了一种声纹识别方法、装置和电子设备,在进行声纹识别时,可以先获取待识别语音的第一声纹特征与预设语音的第二声纹特征之间的第一相似度,并充分考虑到语音质量因子可以声纹识别结果的影响,因此,结合待识别语音对应的语音质量因子对第一相似度进行调整,得到第二相似度;再根据第二相似度对待识别语音进行声纹识别,这样可以解决因未考虑到语音质量因子而导致的声纹识别结果的准确度较低的问题,从而有效地提高了声纹识别结果的准确度。
-
公开(公告)号:CN113421573A
公开(公告)日:2021-09-21
申请号:CN202110681339.2
申请日:2021-06-18
申请人: 马上消费金融股份有限公司
摘要: 本申请实施例提供了一种身份识别模型训练方法、身份识别方法及装置,所述身份识别模型训练方法包括:获取训练音频数据集,以及对训练音频数据集进行特征提取,得到训练特征集,将训练特征集输入待训练模型包括的内容识别模型中进行迭代训练,以及将训练特征集输入训练完成后的内容识别模型输出内容向量;以及将训练特征集输入待训练模型包括的声纹识别模型中进行迭代训练,以及将训练特征集输入训练完成后的声纹识别模型输出声纹向量,将内容向量和声纹向量输入至待训练模型包括的分类器中进行迭代训练,直至分类器的似然最大,参数收敛,得到身份识别模型。采用本申请实施例,可提升身份识别结果的准确性。
-
公开(公告)号:CN118658461A
公开(公告)日:2024-09-17
申请号:CN202410099603.5
申请日:2024-01-22
申请人: 马上消费金融股份有限公司
发明人: 孟庆林
IPC分类号: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/22 , G10L15/30 , G06N3/0442 , G06N3/0455 , G06N3/048 , G06N3/0499 , G06N3/084
摘要: 本申请提供了一种模型训练方法、语音识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品;模型训练方法包括:获取训练数据和预设的语音识别模型;利用所述训练数据对所述预设的语音识别模型进行预训练,得到预训练的语音识别模型;在所述预训练的语音识别模型的第一类编码层中添加路由选择模块,得到待训练的语音识别模型;利用所述训练数据对所述待训练的语音识别模型进行训练得到语音识别模型。通过本申请的模型训练方法,能够提高模型训练效率。
-
-
-
-
-
-
-
-
-