-
公开(公告)号:CN110853617B
公开(公告)日:2022-03-01
申请号:CN201911136295.4
申请日:2019-11-19
申请人: 腾讯科技(深圳)有限公司 , 昆山杜克大学
摘要: 本申请公开了一种模型训练的方法,包括:获取音频样本集合以及随机音频样本集合;通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合;通过待训练网络模型中的待训练音频生成模型获取第二音频声学特征集合;基于第一音频声学特征集合以及第二音频声学特征集合,通过待训练网络模型中的待训练音频生成模型获取判别结果;基于第二音频声学特征集合,通过待训练网络模型中的待训练语种识别模型获取预测语种标签;采用目标损失函数对待训练网络模型进行训练,得到目标网络模型。本申请还公开了一种语种识别的方法及装置。本申请可以实现低资源条件下的模型训练,提升模型训练效果,增强了语种识别的准确度和可靠性。
-
公开(公告)号:CN110853618B
公开(公告)日:2022-08-19
申请号:CN201911137417.1
申请日:2019-11-19
申请人: 腾讯科技(深圳)有限公司 , 昆山杜克大学
IPC分类号: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/16 , G10L21/0272 , G10L21/0308 , G10L25/18 , G10L25/30
摘要: 本申请公开了一种语种识别的方法,包括:获取待识别音频数据;从所述待识别音频数据提取音频频域特征;基于所述音频频域特征,对所述待识别音频数据进行声伴数据分离,得到待识别语音数据,其中,所述声伴数据分离为从音频数据中分离出语音数据和伴奏数据;对所述待识别语音数据进行语种识别,得到所述待识别音频数据的语种识别结果。本申请还公开了一种模型训练的方法、装置及设备。本申请在语种识别模型中仅输入待识别语音数据,去除伴奏音乐的部分,从而减少了伴奏音乐对语种识别的干扰,从而提升了歌曲语种识别的准确度。
-
公开(公告)号:CN110853618A
公开(公告)日:2020-02-28
申请号:CN201911137417.1
申请日:2019-11-19
申请人: 腾讯科技(深圳)有限公司 , 昆山杜克大学
IPC分类号: G10L15/00 , G10L15/02 , G10L15/06 , G10L15/16 , G10L21/0272 , G10L21/0308 , G10L25/18 , G10L25/30
摘要: 本申请公开了一种语种识别的方法,包括:获取待识别音频数据;从所述待识别音频数据提取音频频域特征;基于所述音频频域特征,对所述待识别音频数据进行声伴数据分离,得到待识别语音数据,其中,所述声伴数据分离为从音频数据中分离出语音数据和伴奏数据;对所述待识别语音数据进行语种识别,得到所述待识别音频数据的语种识别结果。本申请还公开了一种模型训练的方法、装置及设备。本申请在语种识别模型中仅输入待识别语音数据,去除伴奏音乐的部分,从而减少了伴奏音乐对语种识别的干扰,从而提升了歌曲语种识别的准确度。
-
公开(公告)号:CN110838286A
公开(公告)日:2020-02-25
申请号:CN201911137419.0
申请日:2019-11-19
申请人: 腾讯科技(深圳)有限公司 , 昆山杜克大学
摘要: 本申请公开了一种模型训练的方法,包括:获取第一语音数据样本集合,第一语音数据样本具有已标注的真实语种标签;根据第一语音数据样本集合生成第二语音数据样本集合,第二语音数据样本为第一语音数据样本经过基频随机变换后得到的;根据第二语音数据样本集合以及伴奏数据样本集合,生成音频数据样本集合;基于音频数据样本集合,通过待训练语种识别模型获取预测语种标签;基于真实语种标签以及预测语种标签,采用损失函数对待训练语种识别模型进行训练,得到语种识别模型。本申请还公开了一种语种识别的方法及装置。本申请可以实现零资源条件下的模型训练,提升模型训练效果,增强了语种识别的准确度和可靠性。
-
公开(公告)号:CN110838286B
公开(公告)日:2024-05-03
申请号:CN201911137419.0
申请日:2019-11-19
申请人: 腾讯科技(深圳)有限公司 , 昆山杜克大学
摘要: 本申请公开了一种模型训练的方法,包括:获取第一语音数据样本集合,第一语音数据样本具有已标注的真实语种标签;根据第一语音数据样本集合生成第二语音数据样本集合,第二语音数据样本为第一语音数据样本经过基频随机变换后得到的;根据第二语音数据样本集合以及伴奏数据样本集合,生成音频数据样本集合;基于音频数据样本集合,通过待训练语种识别模型获取预测语种标签;基于真实语种标签以及预测语种标签,采用损失函数对待训练语种识别模型进行训练,得到语种识别模型。本申请还公开了一种语种识别的方法及装置。本申请可以实现零资源条件下的模型训练,提升模型训练效果,增强了语种识别的准确度和可靠性。
-
公开(公告)号:CN110853617A
公开(公告)日:2020-02-28
申请号:CN201911136295.4
申请日:2019-11-19
申请人: 腾讯科技(深圳)有限公司 , 昆山杜克大学
摘要: 本申请公开了一种模型训练的方法,包括:获取音频样本集合以及随机音频样本集合;通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合;通过待训练网络模型中的待训练音频生成模型获取第二音频声学特征集合;基于第一音频声学特征集合以及第二音频声学特征集合,通过待训练网络模型中的待训练音频生成模型获取判别结果;基于第二音频声学特征集合,通过待训练网络模型中的待训练语种识别模型获取预测语种标签;采用目标损失函数对待训练网络模型进行训练,得到目标网络模型。本申请还公开了一种语种识别的方法及装置。本申请可以实现低资源条件下的模型训练,提升模型训练效果,增强了语种识别的准确度和可靠性。
-
-
-
-
-