-
公开(公告)号:CN118762684A
公开(公告)日:2024-10-11
申请号:CN202411060993.1
申请日:2024-08-02
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开提供了一种语音合成模型的训练方法、语音合成方法、装置及介质,属于计算机技术领域。上述方法包括:通过编码模块对样本音频进行编码,得到第一编码序列,通过语言模型对样本文本进行处理,得到第二编码序列,通过解码模块对第一编码序列进行处理,得到目标音频;基于第一编码序列和第二编码序列,确定第一训练损失;基于样本音频和目标音频,确定第二训练损失;基于第一训练损失、第二训练损失以及第三训练损失,训练第一语音合成模型,得到第二语音合成模型。上述技术方案能够采用联合训练的方式对语音合成模型中的多个模块进行训练,简化了训练步骤,减小了训练过程中的累积误差,提高了训练效率和准确率。
-
公开(公告)号:CN112967735B
公开(公告)日:2024-09-20
申请号:CN202110202612.9
申请日:2021-02-23
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10L25/60
摘要: 本公开关于一种语音质量检测模型的训练方法及语音质量的检测方法,所述训练方法包括:获取语音信号样本和所述语音信号样本通过网络传输时的网络服务质量QoS数据样本;将所述语音信号样本的音频特征和所述网络QoS数据样本输入到所述语音质量检测模型,得到估计的语音质量分数;基于所述语音信号样本的真实语音质量分数和所述估计的语音质量分数,确定所述语音质量检测模型的损失函数;基于确定的损失函数,对所述语音质量检测模型进行训练。
-
公开(公告)号:CN113314101B
公开(公告)日:2024-05-14
申请号:CN202110478784.9
申请日:2021-04-30
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10L15/02 , G10L15/16 , G10L21/007
摘要: 本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取原始对象的第一语音信息;基于所述第一语音信息生成所述原始对象的声学特征信息;将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。本公开能够解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。
-
公开(公告)号:CN112216294B
公开(公告)日:2024-03-19
申请号:CN202010899286.7
申请日:2020-08-31
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10L21/007 , G10L25/03 , G10L25/27 , G10L25/51
摘要: 本公开关于一种音频处理方法、装置、电子设备及存储介质,通过获取第一音频信号,对所述第一音频信号进行信号修正处理,得到修正处理后的中间音频信号,并对所述中间音频信号和伴奏音频信号进行内容分析处理,得到所述中间音频信号的演唱特征信息和所述伴奏音频信号的伴奏特征信息,从而根据所述演唱特征信息和所述伴奏特征信息,对所述中间音频信号和所述伴奏音频信号进行混音处理,以得到混音后的音频信号,通过对所述中间音频信号和所述伴奏音频信号进行混音处理能够美化人声,实现良好的混音效果,得到听感质量高的音乐,提高用户的演唱水效果,并逼近专业演唱者的水准。
-
公开(公告)号:CN113973103B
公开(公告)日:2024-03-12
申请号:CN202111250020.0
申请日:2021-10-26
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开关于一种音频处理方法、装置、电子设备及存储介质,所述音频处理方法包括:接收用于从多个对象中选择至少一个对象的输入,其中,每个对象对应一路音频信号;根据接收到的所述输入分别为与所述多个对象对应的多路音频信号分配各自的权重,其中,所述多路音频信号包括与选择的所述至少一个对象对应的各路音频信号以及与未被选择的对象对应的各路音频信号;利用分配的权重对所述多路音频信号进行混音,得到混音后的音频。
-
公开(公告)号:CN113593594B
公开(公告)日:2024-03-08
申请号:CN202111018634.6
申请日:2021-09-01
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10L21/0208 , G10L25/30
-
公开(公告)号:CN113724716B
公开(公告)日:2024-02-23
申请号:CN202111163835.5
申请日:2021-09-30
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10L19/005 , G10L19/24
摘要: 提供一种语音处理方法和语音处理装置。一种音频处理方法可包括以下步骤:获取当前语音传输网络的网络状态信息;根据所述网络状态信息确定用于对输入语音进行编码的当前码率;基于所述当前码率确定所述输入语音的语音特征信息和对所述语音特征信息进行编码的编码参数;按照所述编码参数对所述语音特征信息进行编码。
-
公开(公告)号:CN113284507B
公开(公告)日:2024-02-13
申请号:CN202110529546.6
申请日:2021-05-14
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10L25/30 , G10L21/0216
摘要: 本公开关于一种语音增强模型的训练方法和装置及语音增强方法和装置,语音增强模型包括噪声掩膜比预测网络和噪声类型判别网络,训练方法包括:获取含噪语音样本,含噪语音样本由说话人语音样本与至少一种场景噪声数据混合而成;将至少一种场景噪声数据中的参考场景噪声数据输入噪声类型判别网络,得到参考场景噪声数据的噪声类型特征,参考场景噪声数据为期望去除的场景噪声数据;将含噪语音样本的幅度谱和噪声类型特征输入噪声掩膜比预测网络,得到参考场景噪声数据的估计的噪声掩膜比;基于估计的噪声掩膜比和噪声类型特征,计算损失函数;通过计算出的损失函数调整噪声掩膜比预测网络和噪声类型判别网络的参数,对语音增强模型进行训练。
-
公开(公告)号:CN111863033B
公开(公告)日:2023-12-12
申请号:CN202010750778.X
申请日:2020-07-30
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开关于一种音频质量识别模型的训练方法、装置、服务器和存储介质,该方法包括:获取音频样本数据集合;获取每个音频信号的特征信息和音频信号对应的目标音频质量信息;将获取的特征信息输入待训练的音频质量识别模型中,得到待训练的音频质量识别模型输出的音频质量信息;根据待训练的音频质量识别模型输出的音频质量信息和目标音频质量信息,获取待训练的音频质量识别模型的损失值;根据损失值调整待训练的音频质量识别模型的模型参数,直至损失值低于预设阈值时,将待训练的音频质量识别模型作为训练好的音频质量识别模型。采用本方法,可以通过训练好的音频质量识别模型直接输出音频信号的音频质量,从而提高了音频质量的检测效率。
-
公开(公告)号:CN112908288B
公开(公告)日:2023-11-21
申请号:CN202110095426.X
申请日:2021-01-25
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G10H1/40 , G06N3/0442 , G06N3/08
-
-
-
-
-
-
-
-
-