用于虚拟交互的带情感语音合成方法、系统及设备和介质
摘要:
本申请公开了一种用于虚拟交互的带情感语音合成方法,包括:将音素序列分别输入音素编码器和位置编码器中处理,将音素编码器和位置编码器的音素序列输出相加后送入编码器中进行编码,提取高维隐藏特征;将合成语音所需文本对应的虚拟形象视频流输入一虚拟形象编码器中处理,获取详细情感信息特征;将编码器和虚拟形象编码器的输出分别输入一方差适应器中进行合成计算,获得音素时长、音调、能量和情感的预测信息,并添加到音素隐藏序列中,输出嵌入情感特征的音素编码序列;将方差适应器和位置编码器的输出相加输入到解码器中进行计算后,输入声学模型中得到最终的带情感的合成语音。本申请还公开了一种用于虚拟交互的带情感语音合成系统。
0/0