音频处理方法、装置、可读存储介质和电子设备

    公开(公告)号:CN112185338B

    公开(公告)日:2024-01-23

    申请号:CN202011062271.1

    申请日:2020-09-30

    摘要: 本发明实施例公开了一种音频处理方法、装置、可读存储介质和电子设备,通过确定第一音频数据,对所述第一音频数据进行分割,以确定包括至少一个音频片段的音频片段序列。根据预设扰动规则对所述音频片段序列中各所述音频片段添加扰动,以调整各所述音频片段对应的音频属性确定目标音频片段序列。拼接所述目标音频片段序列中各所述目标音频片段,以确定第二音频数据。本发明实施例通过对音频数据进行分割,获得多个具有对应音频属性的音频片段,对各音频片段添加扰动以调整音调、音量、语速等音频属性,为调整后音频片段确定的音频数据增加情感色彩,提升了合成语音的真实感。

    语音合成方法和装置
    2.
    发明授权

    公开(公告)号:CN112951204B

    公开(公告)日:2023-06-13

    申请号:CN202110336221.6

    申请日:2021-03-29

    IPC分类号: G10L13/08

    摘要: 本发明实施例公开了一种语音合成方法和装置,通过确定文本信息以及用于表征文本信息拼读方式的拼读规则,根据拼读规则确定文本信息对应的音素向量序列,其中素向量分别用于表征文本信息中对应的单词。以进一步根据音素向量序列进行语音合成,以确定对应的语音信息。本发明实施例可以通过文本信息的拼读规则直接确定音素向量序列进行语音合成,提高了语音合成效率。

    数据处理方法、装置、电子设备和可读存储介质

    公开(公告)号:CN112634861A

    公开(公告)日:2021-04-09

    申请号:CN202011611430.9

    申请日:2020-12-30

    摘要: 本发明实施例提供了一种数据处理方法、装置、电子设备和可读存储介质,涉及计算机技术领域,在本发明实施例中,通过预先训练的语音识别模型,可以确定目标视频中目标语音的声学概率分布,进而可以基于该声学概率分布确定目标语音和目标人脸画面之间的对应关系,并基于该对应关系训练对应关系模型,也就是说,通过本发明实施例可以从目标视频中获取训练样本,提高了对应关系模型的训练样本数量,进而可以提高对应关系模型的精度,当对应关系模型的精度得到提升后,待使用语音和基于对应关系模型确定的待使用人脸数据之间具有良好的匹配度,进而可以使得虚拟人像视频中的虚拟人物更加生动。

    语音合成模型的训练方法、装置、存储介质以及电子设备

    公开(公告)号:CN112289299B

    公开(公告)日:2024-05-14

    申请号:CN202011135519.2

    申请日:2020-10-21

    IPC分类号: G10L13/02 G10L15/02 G10L15/06

    摘要: 本申请实施例公开了一种语音合成模型的训练方法,所述方法包括基于初始语音合成模型对文本数据进行语音合成处理得到合成语音,基于说话人分类网络对所述合成语音进行情感识别得到第一特征向量,基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量,将所述第一特征向量和所述第二特征向量进行比较,基于比较结果对所述初始语音合成模型的网络参数进行更新处理得到目标语音合成模型。通过情感识别网络对合成语音数据和真人语音数据进行情感识别,依据反馈结果更新初始语音合成模型的网路参数,完成初始语音合成模型的训练,得到目标语音合成模型,精准的实现了语音合成模型的训练。

    语音合成模型的训练方法、装置、存储介质以及电子设备

    公开(公告)号:CN112309365A

    公开(公告)日:2021-02-02

    申请号:CN202011135518.8

    申请日:2020-10-21

    摘要: 本申请实施例公开了一种语音合成模型的训练方法,所述方法包括:获取目标用户的第一语音数据,基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据,基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。本申请针对语音合成模型对新的目标用户进行训练时,通过在已有的语音数据集合中找到与目标用户说话风格最相似的语音数据对初始语音合成模型进行训练,得到目标语音合成模型,初始语音合成模型是多人语音合成模型,提升了多人语音合成模型的训练效率。

    语音合成模型的训练方法、装置、存储介质以及电子设备

    公开(公告)号:CN112289299A

    公开(公告)日:2021-01-29

    申请号:CN202011135519.2

    申请日:2020-10-21

    IPC分类号: G10L13/02 G10L15/02 G10L15/06

    摘要: 本申请实施例公开了一种语音合成模型的训练方法,所述方法包括基于初始语音合成模型对文本数据进行语音合成处理得到合成语音,基于说话人分类网络对所述合成语音进行情感识别得到第一特征向量,基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量,将所述第一特征向量和所述第二特征向量进行比较,基于比较结果对所述初始语音合成模型的网络参数进行更新处理得到目标语音合成模型。通过情感识别网络对合成语音数据和真人语音数据进行情感识别,依据反馈结果更新初始语音合成模型的网路参数,完成初始语音合成模型的训练,得到目标语音合成模型,精准的实现了语音合成模型的训练。

    语音合成模型的生成方法、装置、存储介质及电子设备

    公开(公告)号:CN112116903A

    公开(公告)日:2020-12-22

    申请号:CN202010827835.X

    申请日:2020-08-17

    IPC分类号: G10L13/02

    摘要: 本申请实施例公开了一种语音合成模型的生成方法、装置、存储介质及电子设备,属于计算机技术领域。方法包括:服务器基于至少两个不同采样率分别对样本音频数据进行采样处理得到各自对应的训练音频数据,基于至少两个训练音频数据进行训练得到语音合成模型,实现了对训练数据的扩展,为训练语音合成模型提供充足的训练数据,以确保能生成质量较好的语音合成模型。

    信息处理方法及装置
    8.
    发明授权

    公开(公告)号:CN113096641B

    公开(公告)日:2023-06-13

    申请号:CN202110336220.1

    申请日:2021-03-29

    IPC分类号: G10L13/10

    摘要: 本发明实施例公开了一种信息处理方法及装置,通过确定音频信息和对应的文本信息,得到音频信息对应的多个音频特征向量和文本信息对应的多个文本特征向量。将各音频特征向量和各文本特征向量输入注意力机制层得到多个权重向量序列,以根据各权重向量序列、音频特征向量和文本特征向量确定多个对应于文本信息的参考韵律等级标记,输出具有多个参考韵律等级标记的文本信息。本发明实施例通过引入注意力机制层自动根据音频信息和对应的文本信息确定权重向量,以进一步自动生成文本信息对应的韵律等级标记,提高了文本信息韵律等级标记的效率和标记结果的准确程度。

    语音合成方法、装置、存储介质及电子设备

    公开(公告)号:CN114093340A

    公开(公告)日:2022-02-25

    申请号:CN202010753313.X

    申请日:2020-07-30

    IPC分类号: G10L13/08 G10L13/02

    摘要: 本申请实施例公开了一种语音合成方法、装置、存储介质及电子设备,属于计算机技术领域。方法包括:服务器将文本数据转换成至少一个音素序列,文本数据设置有至少一个呼吸声标签,基于预训练的语音合成模型对至少一个音素序列进行语音合成处理得到文本数据对应的梅尔频谱,基于文本数据对应的梅尔频谱得到所述文本数据对应的合成语音,合成语音包括至少一个呼吸声标签对应的呼吸声,增强合成语音的真实感,使其更能接近真人语音,进而提升用户体验。