Patent search ap:("中国科学院声学研究所" OR "北京中科信利技术有限公司") AND inv:"蒿晓阳" Page 1

1.

发明授权
一种基于变分自编码器的多说话人语音合成方法有权转让

公开(公告)号：CN112289304B

公开(公告)日：2024-05-31

申请号：CN201910671050.5

申请日：2019-07-24

Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司

Inventor： 张鹏远 , 蒿晓阳 , 颜永红

IPC: G10L13/08 , G10L13/10 , G10L25/03 , G10L25/27

Abstract: 本发明公开了一种基于变分自编码器的多说话人语音合成方法，包括：提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数，将归一化的音素级别时长参数输入第一变分自编码器，输出时长说话人标签；将归一化的帧级别声学参数输入第二变分自编码器，输出声学说话人标签；对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征；将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络，输出当前音素预测时长；通过当前音素预测时长获得该音素的帧级别语言学特征，将其与声学说话人标签输入声学参数预测网络，输出归一化的预测语音的声学参数；将归一化的预测语音声学参数输入声码器，输出合成语音信号。

2.

发明公开
一种基于变分自编码器的多说话人语音合成方法有权转让

公开(公告)号：CN112289304A

公开(公告)日：2021-01-29

申请号：CN201910671050.5

申请日：2019-07-24

Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司

Inventor： 张鹏远 , 蒿晓阳 , 颜永红

IPC: G10L13/08 , G10L13/10 , G10L25/03 , G10L25/27

Abstract: 本发明公开了一种基于变分自编码器的多说话人语音合成方法，包括：提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数，将归一化的音素级别时长参数输入第一变分自编码器，输出时长说话人标签；将归一化的帧级别声学参数输入第二变分自编码器，输出声学说话人标签；对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征；将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络，输出当前音素预测时长；通过当前音素预测时长获得该音素的帧级别语言学特征，将其与声学说话人标签输入声学参数预测网络，输出归一化的预测语音的声学参数；将归一化的预测语音声学参数输入声码器，输出合成语音信号。

Patent Agency Ranking