语音合成方法及相关装置和电子设备、存储介质

    公开(公告)号:CN113793591A

    公开(公告)日:2021-12-14

    申请号:CN202110768683.5

    申请日:2021-07-07

    Abstract: 本申请公开了一种语音合成方法及相关装置和电子设备、存储介质,其中,语音合成方法包括:获取待合成文本的待合成音素;利用语音合成模型对待合成音素进行合成处理,得到合成音频;其中,语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的,样本数据是利用发言对象的第一音频提取得到的,样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和融合音频频谱,且样本音素序列包括若干样本音素,样本音频频谱包含若干样本音频帧,样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。上述方案,能够提高语音合成质量。

    一种语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN112750419A

    公开(公告)日:2021-05-04

    申请号:CN202011623477.7

    申请日:2020-12-31

    Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:确定待合成文本;将待合成文本输入至语音合成模型中,得到合成结果;语音合成模型是在用于提取文本特征的语言模型的基础上,通过样本文本及其对应的样本语音,联合基于文本特征的说话人识别模型对抗训练得到的。本发明提供的方法、装置、电子设备和存储介质,依赖于语言模型强大的文本理解能力,保证语音合成过程中对于韵律、音素层面信息预测的合理性,从而保证语音合成结果的可靠性和准确性,无需前端模块的加入,节省了大量的人力时间,尤其是在多语种的语音合成场景下,无需另外获取各语种的前端模块,极大降低了语音合成任务的实现难度,有助于语音合成应用的推广。

    一种语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN112750419B

    公开(公告)日:2024-02-13

    申请号:CN202011623477.7

    申请日:2020-12-31

    Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:确定待合成文本;将待合成文本输入至语音合成模型中,得到合成结果;语音合成模型是在用于提取文本特征的语言模型的基础上,通过样本文本及其对应的样本语音,联合基于文本特征的说话人识别模型对抗训练得到的。本发明提供的方法、装置、电子设备和存储介质,依赖于语言模型强大的文本理解能力,保证语音合成过程中对于韵律、音素层面信息预测的合理性,从而保证语音合成结果的可靠性和准确性,无需前端模块的加入,节省了大量的人力时间,尤其是在多语种的语音合成场景下,无需另外获取各语种的前端模块,极大降低了语音合成任务的实现难度,有助于语音合成应用的推广。

    信息合成方法、装置、电子设备和计算机可读存储介质

    公开(公告)号:CN112786005B

    公开(公告)日:2023-12-01

    申请号:CN202011624655.8

    申请日:2020-12-30

    Inventor: 侯秋侠 刘丹

    Abstract: 本发明提供了一种信息合成方法、信息合成装置、电子设备和计算机可读存储介质。根据已训练的自动编解码网络得到第一目标分布,并基于第一目标分布得到目标采样编码;通过已训练的第二编码器对输入信息进行编码,得到输入信息的目标编码;通过已训练的第一解码器根据目标编码对目标采样编码进行解码,得到输出信息。其中,第一目标分布表征从第一编码器输入端到输出端的后验分布,在训练自动编解码网络的过程中,第一编码器与第二编码器的输入样本一一对应,且第二编码器确定的先验分布用于预测第一目标分布。本申请的技术方案可用于语音合成领域,最终合成的语音在韵律、停顿和文字发音等方面具有更好的表现。(56)对比文件刘丹丹;任占勇;蒋海涛.基于EDA的故障字典生成技术研究.航空科学技术.2013,(02),全文.

    语音合成方法、装置、设备及存储介质

    公开(公告)号:CN112802444B

    公开(公告)日:2023-07-25

    申请号:CN202011607966.3

    申请日:2020-12-30

    Abstract: 本申请公开了一种语音合成方法、装置、设备及存储介质,本申请在对待合成的原始文本进行语音合成的过程中,参考了与原始文本存在相匹配的文本片段的匹配文本对应的辅助合成特征,该辅助合成特征为基于匹配文本对应的发音音频所确定的用于辅助语音合成的特征,本申请通过参考匹配文本对应的辅助合成特征,可以利用匹配文本对应的发音音频中发音信息辅助对原始文本进行语音合成,丰富了原始文本语音合成时所参考的信息,进而提高了原始文本的语音合成质量。本申请方案可以适用于带前端预处理和不带前端预处理两种类型的语音合成系统,辅助合成特征可以作为前端文本分析结果也可以直接辅助语音合成系统进行语音合成,均能够提高合成语音的质量。

    语音合成方法和相关设备、装置、介质

    公开(公告)号:CN113488020B

    公开(公告)日:2024-04-12

    申请号:CN202110751319.8

    申请日:2021-07-02

    Abstract: 本申请公开了一种语音合成方法和相关设备、装置、介质,其中,语音合成方法包括:获取以待合成语种表达的待合成文本的待合成音素;利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理,得到合成语谱图;其中,语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的,样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示,对象特征表示用于表征音色特征、发音特征中至少一者,样本对象包括目标对象及与目标对象的相关对象,且相关对象的对象特征表示与目标对象的对象特征表示相关。上述方案,能够提高语音合成质量。

    语音合成方法和相关设备、装置、介质

    公开(公告)号:CN113488020A

    公开(公告)日:2021-10-08

    申请号:CN202110751319.8

    申请日:2021-07-02

    Abstract: 本申请公开了一种语音合成方法和相关设备、装置、介质,其中,语音合成方法包括:获取以待合成语种表达的待合成文本的待合成音素;利用语音合成模型对待合成音素、待合成对象的对象特征表示和待合成语种的语种特征表示进行合成处理,得到合成语谱图;其中,语音合成模型是利用样本对象的样本数据训练预设语音网络而得到的,样本数据包括样本对象的第一音频、样本对象的对象特征表示和第一音频对应发言语种的语种特征表示,对象特征表示用于表征音色特征、发音特征中至少一者,样本对象包括目标对象及与目标对象的相关对象,且相关对象的对象特征表示与目标对象的对象特征表示相关。上述方案,能够提高语音合成质量。

    语音合成方法、装置、设备及存储介质

    公开(公告)号:CN112802444A

    公开(公告)日:2021-05-14

    申请号:CN202011607966.3

    申请日:2020-12-30

    Abstract: 本申请公开了一种语音合成方法、装置、设备及存储介质,本申请在对待合成的原始文本进行语音合成的过程中,参考了与原始文本存在相匹配的文本片段的匹配文本对应的辅助合成特征,该辅助合成特征为基于匹配文本对应的发音音频所确定的用于辅助语音合成的特征,本申请通过参考匹配文本对应的辅助合成特征,可以利用匹配文本对应的发音音频中发音信息辅助对原始文本进行语音合成,丰富了原始文本语音合成时所参考的信息,进而提高了原始文本的语音合成质量。本申请方案可以适用于带前端预处理和不带前端预处理两种类型的语音合成系统,辅助合成特征可以作为前端文本分析结果也可以直接辅助语音合成系统进行语音合成,均能够提高合成语音的质量。

    一种语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN112786012A

    公开(公告)日:2021-05-11

    申请号:CN202011623508.9

    申请日:2020-12-31

    Abstract: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:将初始语音输入至韵律学模型,得到韵律学特征;将韵律学特征和目标音色特征输入至语音合成模型,得到语音合成模型输出的合成结果;其中,韵律学模型是基于各第一语音训练得到的,各第一语音是基于相同的第一韵律学特征和不同的音色合成的;语音合成模型是基于各第二语音及其第二韵律学特征和音色特征训练得到的,第二韵律学特征是将第二语音输入韵律学模型得到的。本发明提供的方法、装置、电子设备和存储介质,韵律学模型输出的韵律学特征与音色无关,提高了语音合成的可靠性和准确性;此外,韵律学模型是针对各语种通用的,极大降低了语音合成任务的实现难度。

    语音合成方法及相关装置和电子设备、存储介质

    公开(公告)号:CN113793591B

    公开(公告)日:2024-05-31

    申请号:CN202110768683.5

    申请日:2021-07-07

    Abstract: 本申请公开了一种语音合成方法及相关装置和电子设备、存储介质,其中,语音合成方法包括:获取待合成文本的待合成音素;利用语音合成模型对待合成音素进行合成处理,得到合成音频;其中,语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的,样本数据是利用发言对象的第一音频提取得到的,样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱,且样本音素序列包括若干样本音素,样本音频频谱包含若干样本音频帧,样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。上述方案,能够提高语音合成质量。

Patent Agency Ranking