语音翻译方法、装置、设备及计算机可读存储介质

    公开(公告)号:CN118692445B

    公开(公告)日:2024-11-12

    申请号:CN202411155650.3

    申请日:2024-08-22

    摘要: 本申请公开了一种语音翻译方法、装置、设备及计算机可读存储介质,该方法可实时获取源语音流;提取用于表征源语音流的音调、音高及语气的音色特征;基于此,可用于后续模拟说话人的说话音色;可确定转译语言;对源语音流进行语言转换,获取采用转译语言表示的源语音流的语义表征;基于此,可实现不同语种的语义转换;可对语义表征进行时长预测,得到时长预测结果;将音色特征注入预设的扩散模型,将时长预测结果及语义表征输入至最新的扩散模型,得到离散声学特征;基于离散声学特征,生成与源语音流音色匹配且语种为转译语言的转译语音流;可见,本申请生成的转译语音流的音色可与说出源语音流的说话人匹配,从而,提高用户使用体验。

    交互方法、装置、计算机设备和存储介质

    公开(公告)号:CN118748663A

    公开(公告)日:2024-10-08

    申请号:CN202410902148.8

    申请日:2024-07-06

    摘要: 本申请公开了一种交互方法、装置、计算机设备和存储介质。属于通讯交互技术领域,该方法具体可以包括:在会话界面中,获取输入的交互内容;响应于针对交互内容的消息发送事件,发送以目标音色表达交互内容的合成语音消息;其中,目标音色包括交互应用所提供的至少一个推荐音色和/或基于交互应用所提供的音色创建入口执行音色创建操作得到的至少一个音色。基于本申请的方法,用户可根据场景、个人偏好或环境信息等,灵活选择目标音色的类型和数量,通过目标音色来生动有趣的表达交互内容,增加了语音聊天的趣味性和娱乐性,可有效提升针对交互场景所配置的数据处理资源的资源利用率。

    提供语音合成服务的方法及其系统

    公开(公告)号:CN118541751A

    公开(公告)日:2024-08-23

    申请号:CN202280087749.7

    申请日:2022-10-20

    摘要: 公开了提供语音合成服务的方法及其系统。根据本公开的各种实施方式中的至少一个实施方式的提供语音合成服务的方法可以包括以下步骤:通过提供开发工具包的语音合成服务平台接收针对多个预定义第一文本的用于合成说话者的语音的声源数据;使用预先生成的音调转换基础模型来执行针对说话者的声源数据的音调转换;通过语音转换训练,生成针对说话者的语音合成模型;接收第二文本;基于针对说话者的语音合成模型和第二文本,通过语音合成推断生成语音合成模型;以及使用语音合成模型生成合成语音。

    音效处理方法、装置、存储介质及处理器

    公开(公告)号:CN118502701A

    公开(公告)日:2024-08-16

    申请号:CN202310119717.7

    申请日:2023-02-15

    发明人: 陈刚

    摘要: 本申请公开了一种音效处理方法、装置、处理器及存储介质。方法包括:获取待处理的音效数据;确定每个输出端口的音效需求;根据所述音效需求对每个输出端口的音效图进行参数配置;将所述音效数据输入至配置后的音效图中;通过配置后的音效图对所述音效数据进行处理,以使处理后的音效数据与每个输出端口的音效需求一致。通过该方法,提高了音效算法的便捷性和配置音效链路的简洁性与可拓展性,节省开发和维护成本。

    歌声合成
    7.
    发明授权

    公开(公告)号:CN112951198B

    公开(公告)日:2024-08-06

    申请号:CN201911156831.7

    申请日:2019-11-22

    发明人: 卢佩玲 栾剑 吴洁

    摘要: 本公开提供了用于歌声合成的方法和装置。可以接收从乐谱中提取的第一乐谱音素信息,所述第一乐谱音素信息包括第一音素以及与所述第一音素相对应的音符的音高和节拍。可以基于所述第一乐谱音素信息,生成与所述第一音素相对应的基频差量和频谱参数。可以通过利用所述基频差量调节所述音符的音高,获得与所述第一音素相对应的基频。可以至少部分地基于所述基频和所述频谱参数,生成与所述第一音素相对应的声学波形。

    一种语音生成方法、装置、设备和存储介质

    公开(公告)号:CN118379985A

    公开(公告)日:2024-07-23

    申请号:CN202410502174.1

    申请日:2024-04-25

    发明人: 陆弘远

    摘要: 本发明涉及一种语音生成方法、装置、设备和存储介质,其中,方法包括:获取文本内容、标签信息以及权重信息;将所述文本内容、标签信息以及权重信息输入至音色克隆模型,得到符合所述标签信息且与所述文本内容对应的语音信息;其中,所述音色克隆模型在接收到所述文本内容、标签信息以及权重信息后,根据所述标签信息从存储库中找出合成音频样本,根据所述合成音频样本生成speaker嵌入,并将权值信息与所述speaker嵌入相乘,并基于相乘后的结果生成符合所述标签信息且与所述文本内容对应的语音信息。本发明能够根据用户需求生成不同音色的语音内容。

    语音合成方法、装置、电子设备和存储介质

    公开(公告)号:CN118197277B

    公开(公告)日:2024-07-23

    申请号:CN202410598515.X

    申请日:2024-05-15

    摘要: 本发明实施例公开一种语音合成方法、装置、电子设备和存储介质,方法包括:确定来自参考语音源的参考语音的参考语音编码、第一参考文本编码和第一参考音素编码,以及确定参考文本的第二参考文本编码和第二参考音素编码;对所述第一参考文本编码和所述第二参考文本编码进行拼接,获得第三参考文本编码;对所述第一参考音素编码和所述第二参考音素编码进行拼接,获得第三参考音素编码;将参考语音编码、第三参考文本编码和所述第三参考音素编码输入至训练好的生成式模型,获得目标语音,目标语音是模拟参考语音源说出所述参考文本的语音。有效解决了在语音合成之前对模型进行再训练的问题,且提高了语音合成流畅度、自然度。