发明公开
- 专利标题: 用于虚拟交互的带情感语音合成方法、系统及设备和介质
-
申请号: CN202311111605.3申请日: 2023-08-31
-
公开(公告)号: CN117079672A公开(公告)日: 2023-11-17
- 发明人: 袁枫 , 阎志远 , 戴琳琳 , 景辉 , 王明哲 , 单杏花 , 李超 , 高志强 , 王心雨 , 随玉腾 , 李阳 , 衣帅 , 朱宇豪 , 李贝贝 , 吕占民 , 李杨 , 苗凡 , 李江涛
- 申请人: 中国铁道科学研究院集团有限公司 , 中国铁道科学研究院集团有限公司电子计算技术研究所 , 北京经纬信息技术有限公司
- 申请人地址: 北京市海淀区大柳树路2号; ;
- 专利权人: 中国铁道科学研究院集团有限公司,中国铁道科学研究院集团有限公司电子计算技术研究所,北京经纬信息技术有限公司
- 当前专利权人: 中国铁道科学研究院集团有限公司,中国铁道科学研究院集团有限公司电子计算技术研究所,北京经纬信息技术有限公司
- 当前专利权人地址: 北京市海淀区大柳树路2号; ;
- 代理机构: 北京金盾律师事务所
- 代理商 李岩; 李敏
- 主分类号: G10L25/63
- IPC分类号: G10L25/63 ; G10L25/30 ; G10L13/08 ; G10L13/04 ; G10L13/02
摘要:
本申请公开了一种用于虚拟交互的带情感语音合成方法,包括:将音素序列分别输入音素编码器和位置编码器中处理,将音素编码器和位置编码器的音素序列输出相加后送入编码器中进行编码,提取高维隐藏特征;将合成语音所需文本对应的虚拟形象视频流输入一虚拟形象编码器中处理,获取详细情感信息特征;将编码器和虚拟形象编码器的输出分别输入一方差适应器中进行合成计算,获得音素时长、音调、能量和情感的预测信息,并添加到音素隐藏序列中,输出嵌入情感特征的音素编码序列;将方差适应器和位置编码器的输出相加输入到解码器中进行计算后,输入声学模型中得到最终的带情感的合成语音。本申请还公开了一种用于虚拟交互的带情感语音合成系统。