一种多情感多说话人语音合成方法和系统

发明公开

请登陆查看更多内容

专利标题： 一种多情感多说话人语音合成方法和系统
申请号： CN202410006409.8

申请日： 2024-01-03
公开(公告)号： CN117496944A

公开(公告)日： 2024-02-02
发明人: 杨继臣 , 夏佳奇 , 王泳 , 伍均达
申请人： 广东技术师范大学
申请人地址： 广东省广州市天河区中山大道西293号
专利权人： 广东技术师范大学
当前专利权人： 广东技术师范大学
当前专利权人地址： 广东省广州市天河区中山大道西293号
代理机构： 佛山粤进知识产权代理事务所
代理商 耿鹏
主分类号： G10L13/027
IPC分类号： G10L13/027

摘要：

针对现有的开源情感语音库一般规模较小进而限制情感语音合成质量的缺点，本发明提供了一种多情感多说话人语音合成方法和系统。方法包括：首先使用现有开源情感语音库训练一个语音情感分类器，去除该分类器的分类层可得到一个语音情感编码器。然后利用该语音情感编码器提取语音中的情感特征训练一个情感转换器，利用情感转换器构建出一个新的多说话人多种情感的情感语音库，最后利用构建的情感语音库和开源情感语音库训练一个情感语音生成器实现多情感多说话人语音合成。本发明依据情感转换器构建新情感语音库，再利用新情感语音库训练情感语音生成器，扩展了情感语音数据集、提升了情感语音合成质量。

公开/授权文献

CN117496944B 一种多情感多说话人语音合成方法和系统公开/授权日：2024-03-22

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L13/00	语音合成；文本-语音合成系统
G10L13/02	.产生合成语音的方法；语音合成设备
G10L13/027	..概念－语音合成；从基于机器的概念产生自然词语（产生文本以外的语音合成参数的入G10L13/08）