一种基于变分自编码器的多说话人语音合成方法

    公开(公告)号:CN112289304B

    公开(公告)日:2024-05-31

    申请号:CN201910671050.5

    申请日:2019-07-24

    Abstract: 本发明公开了一种基于变分自编码器的多说话人语音合成方法,包括:提取一条待合成说话人干净语音的音素级别时长参数和帧级别声学参数,将归一化的音素级别时长参数输入第一变分自编码器,输出时长说话人标签;将归一化的帧级别声学参数输入第二变分自编码器,输出声学说话人标签;对待合成的包含多个说话人的语音信号提取帧级别语言学特征和音素级别语言学特征;将时长说话人标签和归一化的音素级别语言学特征输入时长预测网络,输出当前音素预测时长;通过当前音素预测时长获得该音素的帧级别语言学特征,将其与声学说话人标签输入声学参数预测网络,输出归一化的预测语音的声学参数;将归一化的预测语音声学参数输入声码器,输出合成语音信号。

    一种基于空洞卷积神经网络的端到端语种识别分类方法

    公开(公告)号:CN113539238B

    公开(公告)日:2023-12-08

    申请号:CN202010247070.2

    申请日:2020-03-31

    Abstract: 本发明公开了一种基于空洞卷积神经网络的端到端语种识别分类方法,包括:待训练语种识别网络接收,并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后,输出训练语音后验概率;将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数,通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数,得到训练后语种识别网络;提取测试语音的帧级别声学底层特征;训练后语种识别网络接收测试语音的帧级别声学底层特征,输出测试语音后验概率;根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况(56)对比文件金马 等.基于卷积神经网络的语种识别系统《.数据采集与处理》.2019,第34卷(第2期),第321-330页.

    一种基于降噪自动编码器的语种识别分类方法及装置

    公开(公告)号:CN110858477B

    公开(公告)日:2022-05-03

    申请号:CN201810916756.9

    申请日:2018-08-13

    Abstract: 本发明提供一种基于降噪自动编码器的语种识别分类方法,其包括:步骤1)从待识别的语音片段中提取待识别的语音信号,获得底层声学特征;步骤2)从步骤1)获得的底层声学特征提取原始i‑vector;步骤3)计算并获得音素向量pc(u);步骤4)将原始i‑vector与音素向量pc(u)进行拼接,将其输入至基于DAE的i‑vector补偿网络,获得补偿后的i‑vector;步骤5)分别将步骤2)获得的原始i‑vector和步骤4)获得的补偿后的i‑vector输入至预先训练的逻辑回归分类器,获得对应的分数向量;步骤6)对步骤5)获得的对应的分数向量,进行分数融合,得到最终的分数向量,进而得到各个语种类别的概率,并判定所属的语种类别。

    一种基于生成对抗网络的语言模型数据增强方法

    公开(公告)号:CN110085215B

    公开(公告)日:2021-06-08

    申请号:CN201810064982.9

    申请日:2018-01-23

    Abstract: 本发明涉及一种基于生成对抗网络的语言模型数据增强方法,该方法包括:训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛,利用生成模型Gθ采样生成序列数据集合在上估计N元文法语言模型在训练数据集上估计N元文法语言模型最终通过插值算法得到增强的语言模型。针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别系统的性能。

    一种语音特征重建方法及装置

    公开(公告)号:CN110070887B

    公开(公告)日:2021-04-09

    申请号:CN201810065070.3

    申请日:2018-01-23

    Abstract: 本发明涉及一种语音特征重建方法及装置,该方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将第一有效语音信号转换为第一时频域特征;根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。

    一种多语言连续语音流语音内容识别方法及系统

    公开(公告)号:CN112489622A

    公开(公告)日:2021-03-12

    申请号:CN201910782981.2

    申请日:2019-08-23

    Abstract: 本发明提出一种多语言连续语音流语音内容识别方法及系统,所述方法包括:将待识别的多语言连续语音流输入帧级别语种分类模型,输出段级别语种特征向量;将段级别语种特征向量输入段级别语种分类模型,输出段级别语种状态的后验概率分布;根据段级别语种状态的后验概率分布,基于维特比检索算法,计算多语言连续语音流的最佳的语种状态路径;根据所述最佳语种状态路径对待识别的多语言连续语音流进行切分获得语种状态区间;将切分后的语种状态区间送入多语言声学模型以及相应的多语言解码器中进行解码,得到所述多语言连续语音流的内容识别结果。本发明通过将语种分类模型与维特比检索算法相融合,解决了连续语音流中多语言内容并存的语言种类动态检测和识别的问题。

    一种融合信噪比与可懂度双重目标的语音增强方法及系统

    公开(公告)号:CN112309421A

    公开(公告)日:2021-02-02

    申请号:CN201910689178.4

    申请日:2019-07-29

    Abstract: 本发明属于语音增强信号处理技术领域,具体涉及一种融合信噪比与可懂度双重目标的语音增强方法,包括:将原始语音信号转换为原始时频域特征;将原始时频域特征输入预建立的第一神经网络模型中,获取具有信噪比的第一有效特征;将原始时频域特征输入预建立的第二神经网络模型中,获取具有可懂度的第二有效特征;对第一有效特征和第二有效特征进行处理得到权重矩阵,根据预设的相关性权重阈值,从权重矩阵中逐列选取第二有效特征中与第一有效特征相关性高的元素,提取该元素的相关性权重阈值,并用其替换第一有效特征中对应位置上的阈值,将替换后的第一有效特征作为语音增强后的时频域特征,将语音增强后的时频域特征转换为增强后的语音信号。

Patent Agency Ranking