一种融合Bi-LSTM和WaveNet的语音转换方法
摘要:
本发明提出了一种融合Bi‑LSTM和WaveNet的语音转换方法,首先提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入语音生成网络,生成最终的转换语音。本发明生成的转换语音相似度更高,自然度更好。
公开/授权文献
0/0