一种融合Bi-LSTM和WaveNet的语音转换方法

发明授权

CN109767778B 一种融合Bi-LSTM和WaveNet的语音转换方法有权

请登陆查看更多内容

专利标题： 一种融合Bi-LSTM和WaveNet的语音转换方法
申请号： CN201811613192.8

申请日： 2018-12-27
公开(公告)号： CN109767778B

公开(公告)日： 2020-07-31
发明人: 张雄伟 , 苗晓孔 , 孙蒙 , 曹铁勇 , 郑昌艳 , 李莉 , 曾歆
申请人： 中国人民解放军陆军工程大学
申请人地址： 江苏省南京市秦淮区后标营路88号
专利权人： 中国人民解放军陆军工程大学
当前专利权人： 中国人民解放军陆军工程大学
当前专利权人地址： 江苏省南京市秦淮区后标营路88号
代理机构： 南京理工大学专利中心
代理商 马鲁晋
主分类号： G10L21/007
IPC分类号： G10L21/007 ; G10L25/24 ; G10L25/30

摘要：

本发明提出了一种融合Bi‑LSTM和WaveNet的语音转换方法，首先提取待转换语音特征，将待转换语音的梅尔频率倒谱系数送入特征转换网络转换，得到转换后的梅尔频率倒谱系数，然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入语音生成网络得到预生成语音，将预生成语音的梅尔频率倒谱系数送入后处理网络进行后处理，将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入语音生成网络，生成最终的转换语音。本发明生成的转换语音相似度更高，自然度更好。

公开/授权文献

CN109767778A 一种融合Bi-LSTM和WaveNet的语音转换方法公开/授权日：2019-05-17

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L21/00	为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号（G10L19/00优先）
G10L21/003	.改变声音质量，例如音调或共振峰
G10L21/007	..以所使用的处理为特征的