一种语音生成方法、装置、设备和存储介质

发明公开

CN118379985A 一种语音生成方法、装置、设备和存储介质审中-实审

请登陆查看更多内容

专利标题： 一种语音生成方法、装置、设备和存储介质
申请号： CN202410502174.1

申请日： 2024-04-25
公开(公告)号： CN118379985A

公开(公告)日： 2024-07-23
发明人: 陆弘远
申请人： 上海脸谱心智智能科技有限公司
申请人地址： 上海市奉贤区南桥镇环城西路2511号6幢6层
专利权人： 上海脸谱心智智能科技有限公司
当前专利权人： 上海脸谱心智智能科技有限公司
当前专利权人地址： 上海市奉贤区南桥镇环城西路2511号6幢6层
代理机构： 上海泰博知识产权代理有限公司
代理商 钱文斌
主分类号： G10L13/10
IPC分类号： G10L13/10 ; G10L13/047 ; G10L13/033

摘要：

本发明涉及一种语音生成方法、装置、设备和存储介质，其中，方法包括：获取文本内容、标签信息以及权重信息；将所述文本内容、标签信息以及权重信息输入至音色克隆模型，得到符合所述标签信息且与所述文本内容对应的语音信息；其中，所述音色克隆模型在接收到所述文本内容、标签信息以及权重信息后，根据所述标签信息从存储库中找出合成音频样本，根据所述合成音频样本生成speaker嵌入，并将权值信息与所述speaker嵌入相乘，并基于相乘后的结果生成符合所述标签信息且与所述文本内容对应的语音信息。本发明能够根据用户需求生成不同音色的语音内容。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L13/00	语音合成；文本-语音合成系统
G10L13/08	.文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13/10	..来自文本的韵律规则；重音或声调