文本的切分方法和文本的切分装置

    公开(公告)号:CN114678002A

    公开(公告)日:2022-06-28

    申请号:CN202210344456.4

    申请日:2022-03-31

    发明人: 高羽 涂建华

    摘要: 本申请涉及语音合成领域,提供一种文本的切分方法和文本的切分装置,所述文本的切分方法,包括:将目标文本转化为韵律音素序列,所述韵律音素序列包括与所述目标文本对应的多个音素以及位于相邻所述音素之间的韵律标识符;基于多个所述韵律标识符在所述韵律音素序列中确定第一切分位置;基于所述第一切分位置对所述韵律音素序列进行切分,生成第一子韵律音素序列和第二子韵律音素序列,且所述第一子韵律音素序列对应的语音合成时长在目标时长内。本申请的文本的切分方法,能够缩短合成系统的首句响应时间。

    一种TTS系统性能测试方法、装置、设备及介质

    公开(公告)号:CN113409826A

    公开(公告)日:2021-09-17

    申请号:CN202110890585.9

    申请日:2021-08-04

    发明人: 高羽 袁云浩

    IPC分类号: G10L25/69 G10L13/02

    摘要: 本申请公开了一种TTS系统性能测试方法、装置、设备及介质,应用于语音合成技术领域,用以解决现有技术的TTS系统性能测试方法存在的准确度较低的问题。具体为:获取TTS系统对输入文本的文本预测结果和语音预测结果;基于文本预测结果,确定TTS系统的文本处理性能测试结果;基于语音预测结果,确定TTS系统的语音转换性能测试结果;基于文本处理性能测试结果和语音转换性能测试结果,确定TTS系统的综合性能测试结果。这样,采用文本处理和语音转换两个方面的客观指标对TTS系统的性能进行测试,不仅可以实现对TTS系统性能的全方位测试,还可以提高TTS系统性能测试的准确度。

    语音处理方法及装置、电子设备和可读存储介质

    公开(公告)号:CN118918906A

    公开(公告)日:2024-11-08

    申请号:CN202411238688.7

    申请日:2024-09-04

    摘要: 本发明提出了一种语音处理方法及装置、电子设备和可读存储介质。语音处理方法包括:获取多个麦克风通道的多个原始语音信号;对多个原始语音信号在N个波束方向进行波束形成,得到N个波束信号,N为正整数;对多个麦克风通道中的目标麦克风通道的目标原始语音信号和N个波束信号进行降噪处理,得到第一语音信号;对目标原始语音信号和第一语音信号进行加权处理,得到第二语音信号。这样,结合多波束信号处理以及多通道语音降噪神经网络进行语音降噪,并结合原始语音信号进行语音信号的降噪和加权,无需声源定位,也无需使用大量训练数据,提高了高噪音环境下语音降噪的准确性,并保证了降噪后的语音信号的保真性。

    一种音色切换方法、装置、设备及介质

    公开(公告)号:CN114822496B

    公开(公告)日:2024-09-20

    申请号:CN202110962055.0

    申请日:2021-08-20

    发明人: 高羽

    IPC分类号: G10L13/08 G10L13/033

    摘要: 本申请公开了一种音色切换方法、装置、设备及介质,应用于语音合成技术领域,用以解决现有技术在切换TTS系统的发音人时存在的用户感知明显、用户体验较差的问题。具体为:获取目标发音人数据和原始发音人数据;基于各个音色变化阶段的音色变化程度,对目标发音人数据和原始发音人数据进行混合,得到各个音色变化阶段的发音人数据;基于各个音色变化阶段的发音人数据,获得各个音色变化阶段的TTS系统;基于各个音色变化阶段的音色变化程度表征的调用顺序,调用各个音色变化阶段的TTS系统,从而可以实现从原始发音人音色到的目标发音人音色的平滑切换,进而可以降低TTS系统切换发音人时的用户感知,提高TTS系统的用户体验。

    语音合成方法和语音合成装置
    40.
    发明公开

    公开(公告)号:CN114678001A

    公开(公告)日:2022-06-28

    申请号:CN202210344448.X

    申请日:2022-03-31

    发明人: 高羽

    摘要: 本申请涉及语音合成领域,提供一种语音合成方法,包括:切分目标文本的韵律音素序列,生成多个分句序列,韵律音素序列包括与目标文本对应的多个音素以及位于相邻音素之间的韵律标识符,每个分句序列包括至少一个音素;对多个分句序列中的第一子韵律音素序列进行语音合成,得到第一语音信息;输出第一语音信息且对多个分句序列中的第二子韵律音素序列进行语音合成,生成第二语音信息,第二子韵律音素序列为在韵律音素序列中位于第一子韵律音素序列之后的至少一个分句序列。本申请的语音合成方法,有效加快系统在接收到网络语音合成服务请求后的反馈速度,缩短用户的等待时间。