用于虚拟交互的带情感语音合成方法、系统及设备和介质

发明公开

CN117079672A 用于虚拟交互的带情感语音合成方法、系统及设备和介质审中-实审

请登陆查看更多内容

专利标题： 用于虚拟交互的带情感语音合成方法、系统及设备和介质
申请号： CN202311111605.3

申请日： 2023-08-31
公开(公告)号： CN117079672A

公开(公告)日： 2023-11-17
发明人: 袁枫 , 阎志远 , 戴琳琳 , 景辉 , 王明哲 , 单杏花 , 李超 , 高志强 , 王心雨 , 随玉腾 , 李阳 , 衣帅 , 朱宇豪 , 李贝贝 , 吕占民 , 李杨 , 苗凡 , 李江涛
申请人： 中国铁道科学研究院集团有限公司 , 中国铁道科学研究院集团有限公司电子计算技术研究所 , 北京经纬信息技术有限公司
申请人地址： 北京市海淀区大柳树路2号; ;
专利权人： 中国铁道科学研究院集团有限公司,中国铁道科学研究院集团有限公司电子计算技术研究所,北京经纬信息技术有限公司
当前专利权人： 中国铁道科学研究院集团有限公司,中国铁道科学研究院集团有限公司电子计算技术研究所,北京经纬信息技术有限公司
当前专利权人地址： 北京市海淀区大柳树路2号; ;
代理机构： 北京金盾律师事务所
代理商 李岩; 李敏
主分类号： G10L25/63
IPC分类号： G10L25/63 ; G10L25/30 ; G10L13/08 ; G10L13/04 ; G10L13/02

摘要：

本申请公开了一种用于虚拟交互的带情感语音合成方法，包括：将音素序列分别输入音素编码器和位置编码器中处理，将音素编码器和位置编码器的音素序列输出相加后送入编码器中进行编码，提取高维隐藏特征；将合成语音所需文本对应的虚拟形象视频流输入一虚拟形象编码器中处理，获取详细情感信息特征；将编码器和虚拟形象编码器的输出分别输入一方差适应器中进行合成计算，获得音素时长、音调、能量和情感的预测信息，并添加到音素隐藏序列中，输出嵌入情感特征的音素编码序列；将方差适应器和位置编码器的输出相加输入到解码器中进行计算后，输入声学模型中得到最终的带情感的合成语音。本申请还公开了一种用于虚拟交互的带情感语音合成系统。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L25/00	不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术(当利用语音检测器来感知一些信号特殊特征的基于半导体的静噪放大器，如无信号时的感知入H03G3/34)
G10L25/48	.专门适用于特定用途
G10L25/51	..比较或判别
G10L25/63	...情感状态估计