语音合成方法及相关装置、电子设备和存储介质

    公开(公告)号:CN114299911A

    公开(公告)日:2022-04-08

    申请号:CN202111630204.X

    申请日:2021-12-28

    摘要: 本申请公开了一种语音合成方法及相关装置、电子设备和存储介质,其中,语音合成方法包括:将待合成文本进行口语化转换,得到口语化文本;其中,口语化转换参考至少一种转换模式;提取口语化文本的音素序列,并预测口语化文本的口语化控制标签;其中,口语化控制标签用于控制发音状态;基于音素序列和口语化控制标签,合成得到待合成文本的口语化语音。上述方案,能够实现口语化的语音合成,以提升用户交互体验。

    合成语音处理方法及相关装置

    公开(公告)号:CN113066472B

    公开(公告)日:2024-05-31

    申请号:CN201911297777.8

    申请日:2019-12-13

    IPC分类号: G10L13/02 G10L13/08 G10L25/30

    摘要: 本申请实施例公开了一种合成语音处理方法及相关装置,方法包括:获取针对第一用户的原始合成语音;提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。本申请提供的合成语音处理方法,能够改善合成语音的自然度、相似度,使之更接近自然语音,提升用户的交互体验。

    获得预测模型的方法、语音波形的预测方法及相关装置

    公开(公告)号:CN112767957B

    公开(公告)日:2024-05-31

    申请号:CN202011627633.7

    申请日:2020-12-31

    发明人: 伍宏传 胡亚军

    IPC分类号: G10L19/04 G10L25/30 G10L13/08

    摘要: 本申请公开了一种获得预测模型的方法、语音波形的预测方法、电子设备和计算机可读存储介质,所述获得预测模型的方法首先将样本语音波形划分为若干个样本子序列,并进行时延处理,然后构建初始预测模型,并依据若干个样本子序列和样本语音波形的声学参数训练初始预测模型,获得预测模型。其中,将若干个样本子序列中当前波形点的波形值同时输入上述预测模型,能够同时获得若干个样本子序列中下一波形点的预测波形值。因此,本申请能够减少预测生成语音波形的计算量,提高生成语音波形的效率,从而能够实现实时生成语音波形的目的,且实时生成语音波形时不容易发生卡顿。

    语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN116013247A

    公开(公告)日:2023-04-25

    申请号:CN202211731625.6

    申请日:2022-12-30

    IPC分类号: G10L13/027 G10L13/08

    摘要: 本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括:获取待合成的文本,以及控制语音合成的目标情感强度;基于各预设情感档位的档位情感特征,确定所述目标情感强度下的全局情感特征;基于所述文本以及所述全局情感特征进行语音合成,克服了传统方案中合成语音缺乏情感或情感表达单一,缺失情感间的转变,以致合成语音的情感表达效果不佳的缺陷,通过全局情感特征控制语音合成,可以在情感空间上定位情感方向和情感强度,实现了合成语音在不同情感上的信息表达,以及在情感强度上的情感化表达,提升了合成语音的情感表现力,优化了表达效果。

    一种高采样率语音波形生成方法、装置、设备及存储介质

    公开(公告)号:CN112863539A

    公开(公告)日:2021-05-28

    申请号:CN201911188336.4

    申请日:2019-11-28

    摘要: 本申请提供了一种高采样率语音波形重建方法、装置、设备及存储介质,其中,方法包括:获取待重建语音波形的条件特征;根据待重建语音波形的条件特征分别构建低采样率语音波形和残差语音波形,其中,低采样率语音波形能够反映待重建语音波形的整体形状,残差语音波形能够反映待重建语音波形的局部精细结构;根据低采样率语音波形和残差语音波形,重建高采样率语音波形。本申请根据低采样率语音波形和残差语音波形能够重建出高质量的高采样率语音波形。

    一种高采样率语音波形生成方法、装置、设备及存储介质

    公开(公告)号:CN112863539B

    公开(公告)日:2024-04-16

    申请号:CN201911188336.4

    申请日:2019-11-28

    摘要: 本申请提供了一种高采样率语音波形重建方法、装置、设备及存储介质,其中,方法包括:获取待重建语音波形的条件特征;根据待重建语音波形的条件特征分别构建低采样率语音波形和残差语音波形,其中,低采样率语音波形能够反映待重建语音波形的整体形状,残差语音波形能够反映待重建语音波形的局部精细结构;根据低采样率语音波形和残差语音波形,重建高采样率语音波形。本申请根据低采样率语音波形和残差语音波形能够重建出高质量的高采样率语音波形。

    一种多音字消歧方法、装置、存储介质及设备

    公开(公告)号:CN115775554A

    公开(公告)日:2023-03-10

    申请号:CN202211521669.6

    申请日:2022-11-30

    发明人: 伍宏传 胡亚军

    摘要: 本申请公开了一种多音字消歧方法、装置、存储介质及设备,该方法包括:首先获取包含目标多音字的目标文本,并对其进行分词处理,得到其包含目标多音字的目标分词,然后判断目标分词是否包含在预先构建的无歧义词典中,若是,则将无歧义词典中预先标注的目标分词中目标多音字的发音作为目标文本中目标多音字的发音;若否,则将目标文本输入预先构建的多音字消歧模型,预测得到目标多音字的发音。由于本申请是先根据字典中多音字语义和发音的对应关系构建了多音字消歧模型,并利用部分多音字在分词中的发音无歧义的特性构建了无歧义词典,从而在多音字消歧过程中,能够结合该多音字消歧模型、分词信息和无歧义词典,更为准确的确定出多音字的发音。

    合成语音处理方法及相关装置

    公开(公告)号:CN113066472A

    公开(公告)日:2021-07-02

    申请号:CN201911297777.8

    申请日:2019-12-13

    IPC分类号: G10L13/02 G10L13/08 G10L25/30

    摘要: 本申请实施例公开了一种合成语音处理方法及相关装置,方法包括:获取针对第一用户的原始合成语音;提取所述原始合成语音的幅度谱和相位谱,所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱;通过预先训练好的正向生成器模型处理所述其他维幅度谱,得到对应的增强幅度谱;根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。本申请提供的合成语音处理方法,能够改善合成语音的自然度、相似度,使之更接近自然语音,提升用户的交互体验。

    获得预测模型的方法、语音波形的预测方法及相关装置

    公开(公告)号:CN112767957A

    公开(公告)日:2021-05-07

    申请号:CN202011627633.7

    申请日:2020-12-31

    发明人: 伍宏传 胡亚军

    IPC分类号: G10L19/04 G10L25/30 G10L13/08

    摘要: 本申请公开了一种获得预测模型的方法、语音波形的预测方法、电子设备和计算机可读存储介质,所述获得预测模型的方法首先将样本语音波形划分为若干个样本子序列,并进行时延处理,然后构建初始预测模型,并依据若干个样本子序列和样本语音波形的声学参数训练初始预测模型,获得预测模型。其中,将若干个样本子序列中当前波形点的波形值同时输入上述预测模型,能够同时获得若干个样本子序列中下一波形点的预测波形值。因此,本申请能够减少预测生成语音波形的计算量,提高生成语音波形的效率,从而能够实现实时生成语音波形的目的,且实时生成语音波形时不容易发生卡顿。