-
公开(公告)号:CN111951780B
公开(公告)日:2023-06-13
申请号:CN202010839731.0
申请日:2020-08-19
申请人: 广州华多网络科技有限公司
摘要: 本申请涉及语音合成技术领域,提供了一种语音合成的多任务模型训练方法及相关设备,该方法包括:设定至少两个序列标注任务,以处理语音合成中的文本分析;根据序列标注任务构建包括多任务输出层的多任务模型,将多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列;获取样本信息,样本信息包括训练文本信息,以及训练文本信息与各项序列标注任务对应的训练标签序列;采用样本信息对多任务模型进行训练,得到语音合成前端处理的多任务模型。本申请将各项序列标注任务整合在同一多任务模型中,有利于简化模型的训练流程。
-
公开(公告)号:CN110491404A
公开(公告)日:2019-11-22
申请号:CN201910754273.8
申请日:2019-08-15
申请人: 广州华多网络科技有限公司
IPC分类号: G10L21/0208 , G10L15/06 , G10L25/30
摘要: 本申请公开了一种语音处理方法、装置、终端设备及存储介质,该方法包括:获取带噪音频数据,带噪音频数据包括语音源信号;对带噪音频数据进行预处理,从带噪音频数据中提取带噪音频特征并输入预先训练好的语音处理网络模型,得到去噪后的音频特征,预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,多个因果卷积层用于根据带噪音频特征输出对应语音源信号的纹理特征,至少一个递归神经网络层用于根据纹理特征输出去噪后的音频特征;根据去噪后的音频特征,得到语音源信号的估计值,并将其作为去噪后的带噪音频数据进行输出。本申请通过因果卷积层和递归神经网络层实现对带噪音频数据的实时降噪,提高了语音降噪效果。
-
公开(公告)号:CN110491404B
公开(公告)日:2020-12-22
申请号:CN201910754273.8
申请日:2019-08-15
申请人: 广州华多网络科技有限公司
IPC分类号: G10L21/0208 , G10L15/06 , G10L25/30
摘要: 本申请公开了一种语音处理方法、装置、终端设备及存储介质,该方法包括:获取带噪音频数据,带噪音频数据包括语音源信号;对带噪音频数据进行预处理,从带噪音频数据中提取带噪音频特征并输入预先训练好的语音处理网络模型,得到去噪后的音频特征,预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层,多个因果卷积层用于根据带噪音频特征输出对应语音源信号的纹理特征,至少一个递归神经网络层用于根据纹理特征输出去噪后的音频特征;根据去噪后的音频特征,得到语音源信号的估计值,并将其作为去噪后的带噪音频数据进行输出。本申请通过因果卷积层和递归神经网络层实现对带噪音频数据的实时降噪,提高了语音降噪效果。
-
公开(公告)号:CN112037754A
公开(公告)日:2020-12-04
申请号:CN202010940049.0
申请日:2020-09-09
申请人: 广州华多网络科技有限公司
摘要: 本申请提供一种语音合成训练数据的生成方法及相关设备,通过获取原始训练数据,并确定原始训练数据的语音类型所对应的预先建立的音色转换网络,预先建立的音色转换网络至少包括语音内容识别模型、语音说话人识别模型、声码器模型和音色转换模型,其中,至少音色转换模型基于目标音色数据集进行训练调整得到;将原始训练数据输入预先建立的音色转换网络进行音频转换,输出转换成指定目标音色的音频数据,并将音频数据作为语音合成TTS训练数据,音频数据具有与原始训练数据相同的拼音标注和韵律标注。本申请能够实现在短时间内生成具有更多音色选择和数量的高质量TTS训练数据的目的。
-
公开(公告)号:CN111951780A
公开(公告)日:2020-11-17
申请号:CN202010839731.0
申请日:2020-08-19
申请人: 广州华多网络科技有限公司
摘要: 本申请涉及语音合成技术领域,提供了一种语音合成的多任务模型训练方法及相关设备,该方法包括:设定至少两个序列标注任务,以处理语音合成中的文本分析;根据序列标注任务构建包括多任务输出层的多任务模型,将多任务输出层配置为将目标文本信息作为各项序列标注任务独立的输入并输出各项序列标注任务对应的标签序列;获取样本信息,样本信息包括训练文本信息,以及训练文本信息与各项序列标注任务对应的训练标签序列;采用样本信息对多任务模型进行训练,得到语音合成前端处理的多任务模型。本申请将各项序列标注任务整合在同一多任务模型中,有利于简化模型的训练流程。
-
公开(公告)号:CN112365878B
公开(公告)日:2024-01-23
申请号:CN202011191060.8
申请日:2020-10-30
申请人: 广州华多网络科技有限公司
IPC分类号: G10L13/08 , G10L13/047 , G10L13/04 , G10L25/30
摘要: 本申请提供了语音合成方法、装置、设备及计算机可读存储介质,涉及语音处理技术领域。该方法通过获取输入的多语言混合的文本信息,将文本信息转换为混合音素文本,利用预先编制的多语言混合音素字典查找混合音素文本中各音素对应的音素编号得到音素编号序列,基于音素编号序列预测生成频谱参数序列;其中,多语言混合音素字典依据多种语言的基础音素进行编写;利用声码器将频谱参数序列转换为对应的时序语音信号,合成混合语音,本技术方案实现了利用同一融合有多种语言的基础音素的多语言混合字典,能够合成具有同一音色的混合语音,自然流畅,降低混合语音的合成成本。
-
公开(公告)号:CN112019874A
公开(公告)日:2020-12-01
申请号:CN202010940695.7
申请日:2020-09-09
申请人: 广州华多网络科技有限公司
IPC分类号: H04N21/2187 , H04N21/233
摘要: 本申请提供一种连麦直播方法及相关设备,包括:在多个终端连麦进行直播过程中,若任意终端触发变声直播模式时,获取主播基于终端实时输入的原始音频,以及主播基于终端选择的目标音色;基于目标音色对原始音频中的原始音色进行音色转换,得到转换后的目标音频;将目标音频与获取到的其他连麦的终端输入的原始音频进行混流,得到混流音频,并将混流音频发送给所有连麦终端以及进入连麦直播间的观众端。在方案中,服务器对触发变声直播模式的终端实时输入的原始音频进行音色转换,以得到目标音频。以便于进入该直播间的观众观看。通过上述方式进行连麦直播,能够提高用户的直播观看体验,且增加用户对直播平台的粘性。
-
公开(公告)号:CN110491407A
公开(公告)日:2019-11-22
申请号:CN201910754269.1
申请日:2019-08-15
申请人: 广州华多网络科技有限公司
IPC分类号: G10L21/0232 , G10L25/18 , G10L25/30
摘要: 本申请公开了一种语音降噪的方法、装置、电子设备以及存储介质,该方法包括获取第一音频,第一音频为混合有语音信号以及背景噪声信号的音频;继而对第一音频进行预处理,以将第一音频的频谱能量特征由线性时域转换到Bark频域,得到第一音频的Bark特征;再将Bark特征输入预先训练得到的目标神经网络模型,获取目标神经网络模型输出的Bark特征比例参数;再基于Bark特征比例参数计算语音信号的幅值参数;然后基于幅值参数获取目标语音。通过将第一音频的Bark特征输入预先训练得到的目标神经网络模型,进而计算出语音信号的幅值参数,再基于幅值参数获取目标语音,减小了神经网络模型的计算量,降低语音信息中的背景噪声。
-
公开(公告)号:CN111951779A
公开(公告)日:2020-11-17
申请号:CN202010838901.3
申请日:2020-08-19
申请人: 广州华多网络科技有限公司
摘要: 本申请涉及语音合成技术领域,提供了一种语音合成的前端处理方法及相关设备,该方法包括:获取待处理的原始文本信息,并将原始文本信息转换为正则化文本信息;将正则化文本信息输入多任务模型,获取对应的分词、韵律边界预测和多音字拼音的标签序列;整合分词和韵律边界预测的标签序列,获得整合标签序列;根据多音字拼音的标签序列和整合标签序列,确定原始文本信息的音素序列。本申请的实施有利于提高语音合成中前端处理结果的准确度。
-
公开(公告)号:CN110503976A
公开(公告)日:2019-11-26
申请号:CN201910754271.9
申请日:2019-08-15
申请人: 广州华多网络科技有限公司
IPC分类号: G10L21/0272 , G10L25/03 , G10L25/30 , G06N3/04 , G06N3/08
摘要: 本申请公开了一种音频分离方法、装置、电子设备及存储介质,该音频分离方法包括:获取待处理的混合音频;提取混合音频的音频特征;将音频特征输入预先训练好的音频分离神经网络模型,音频分离神经网络模型包括密集模块DenseBlock结构以及沙漏Hourglass结构,DenseBlock结构以及Hourglass结构用于根据音频特征逐级输出混合音频对应的伴奏音频特征和人声音频特征;获得音频分离神经网络模型输出的混合音频对应的伴奏音频特征和人声音频特征;基于伴奏音频特征和人声音频特征,获取混合音频对应的伴奏音频和人声音频,作为混合音频的混音分离结果。本申请将混合音频输入包含DenseBlock结构以及Hourglass结构的音频分离神经网络模型,能够比较准确分离出纯净伴奏和纯净人声,提高了音频分离效果。
-
-
-
-
-
-
-
-
-