语音合成方法、系统、语音合成模型及其训练方法
摘要:
本申请提供一种语音合成方法、系统、语音合成模型及其训练方法,所述方法包括获取目标文本和目标文本的第一瓶颈特征;获取参考音频库,参考音频库包括若干参考音频;获取参考音频库中每一个参考音频对应的参考文本,以及,获取每一个参考文本的第二瓶颈特征;计算第一瓶颈特征与每一个参考文本的第二瓶颈特征的相似度,将与第一瓶颈特征相似度最高的第二瓶颈特征对应的参考文本确定为文本模板;将文本模板对应的参考音频确定为音频模板;将音频模板和目标文本输入预先训练的语音合成模型中,以合成具备深度情感层次特征的语音。
0/0