一种基于音向量文本特征的语音合成方法

    公开(公告)号:CN105654939A

    公开(公告)日:2016-06-08

    申请号:CN201610000677.4

    申请日:2016-01-04

    发明人: 徐明星 车浩

    摘要: 本发明公开了一种基于音向量文本特征的语音合成方法,文本分析模块接收输入文本,对文本特征进行规则化处理,将得到的文本数据输送至文本参数化模块,采用一位热码编码方法得到参数化的文本;音向量训练模块接收参数化的文本,训练基于音向量的语言模型,然后输送至语言参数训练模块训练从文本到语音参数的映射模型;音向量生成模块通过接收文本参数化模块和音向量训练模块的输出文本,生成文本数据的音向量;文本数据的音向量和文本到语音参数的映射模型输送至语言参数预测模块,得到音向量所对应的语音参数;最终由语音合成器模块合成语音。本发明提高了语音合成系统建模的准确性;大大降低了系统实现的复杂度和人工参与程度。

    基于全局变化空间及深度学习混合建模的声纹识别方法

    公开(公告)号:CN105575394A

    公开(公告)日:2016-05-11

    申请号:CN201610000675.5

    申请日:2016-01-04

    发明人: 徐明星 车浩

    IPC分类号: G10L17/10 G10L17/04 G10L17/02

    CPC分类号: G10L17/10 G10L17/02 G10L17/04

    摘要: 本发明公开一种基于全局变化空间及深度学习混合建模的声纹识别方法,包括以下步骤:获取语音段训练数据,采用全局变化空间建模的方法进行身份认证矢量,获取TVM-IVECTOR;采用深度神经网络的方法进行训练,获取NN-IVECTOR;将同一个音频文件的两个向量进行融合,得到新的I-VECTOR特征提取器;对于待测试音频,将TVM-IVECTOR和NN-IVECTOR两个向量融合后,提取最终的I-VECTOR;经过信道补偿后,与模型库中的说话人模型进行打分识别,得到识别结果。本发明方法对环境不匹配、多信道变化以及噪声等环境因素的干扰具有更强的鲁棒性,能够提高声纹识别方法的性能。

    一种基于统计参数的疑问句、感叹句的语音合成方法

    公开(公告)号:CN105654942A

    公开(公告)日:2016-06-08

    申请号:CN201610000676.X

    申请日:2016-01-04

    发明人: 徐明星 车浩

    IPC分类号: G10L13/10 G10L13/02

    CPC分类号: G10L13/10 G10L13/02

    摘要: 本发明公开一种基于统计参数的疑问句、感叹句的语音合成方法,该方法分为通过对陈述句的模型训练,得到陈述句的初始声学模型、通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的声学模型和根据疑问句或感叹句的声学模型,实现疑问句或感叹句的语音生成三部分。本发明提供了一种在小语料情况下,采用小规模语料快速实现疑问句或感叹句的语音合成方法,解决了相对于陈述句语料,疑问句或感叹句语料较难收集,语料规模较小情况下,得的较高音质以及自然度的合成语音的问题。

    一种基于文本信息的波形拼接语音合成方法

    公开(公告)号:CN104575488A

    公开(公告)日:2015-04-29

    申请号:CN201410816486.6

    申请日:2014-12-25

    发明人: 徐明星

    IPC分类号: G10L13/02 G10L13/08

    摘要: 本发明公开了一种基于文本信息的波形拼接语音合成方法,该方法包括以下步骤:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与训练权重预测模型;采用分层预选方法,进行分层预选,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;对目标基元、候选基元和权重预测模型预测的权重信息计算,获得目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。本发明提高了合成语音的效率,增强拼接合成的实时性并提高了合成语音的韵律表现。