一种对声调建模的声音转换方法及系统、计算机设备

    公开(公告)号:CN114093387A

    公开(公告)日:2022-02-25

    申请号:CN202111399455.1

    申请日:2021-11-19

    发明人: 包英泽 赵磊 梁光

    IPC分类号: G10L25/30 G06N3/04 G06N3/08

    摘要: 本发明涉及一种对声调建模的声音转换方法,以AM模型和vocoder模型为基础,结合端到端的联合训练方式,构建并获得声音转换模型,应用声音波形、以及声音波形所对应的频谱能量Energy、基频F0、捕获扬声器id作为输入,通过对声调特征进行建模,获得与之对应的目标声音的转换,保留目标对象情感的同时,增加了变声之后的情感丰富度,有效提高了转换后声音的真实性与音质。

    一种对声调建模的声音转换方法及系统、计算机设备

    公开(公告)号:CN114093387B

    公开(公告)日:2024-07-26

    申请号:CN202111399455.1

    申请日:2021-11-19

    发明人: 包英泽 赵磊 梁光

    IPC分类号: G10L25/30 G06N3/0464 G06N3/08

    摘要: 本发明涉及一种对声调建模的声音转换方法,以AM模型和vocoder模型为基础,结合端到端的联合训练方式,构建并获得声音转换模型,应用声音波形、以及声音波形所对应的频谱能量Energy、基频F0、捕获扬声器id作为输入,通过对声调特征进行建模,获得与之对应的目标声音的转换,保留目标对象情感的同时,增加了变声之后的情感丰富度,有效提高了转换后声音的真实性与音质。

    基于联合训练的人脸视频与音频的同步方法及系统

    公开(公告)号:CN113825005A

    公开(公告)日:2021-12-21

    申请号:CN202111159455.4

    申请日:2021-09-30

    IPC分类号: H04N21/43 H04N21/8547

    摘要: 本发明涉及基于联合训练的人脸视频与音频的同步方法及系统、计算机设备,采用其全新逻辑关系,基于样本视频中各发音口型分别所对应待处理音素序列,结合各个口型视频分别所对应待处理音素序列中预设指定音素的指定类型特征,以及各个口型视频分别所对应的指定类型口型特征,进行网络训练,获得口型特征生成模块;基于此获得目标音频中各句中文语音分别所对应的指定类型口型特征序列,用于针对各句中文语音分别所对应目标人脸视频中相应视频段的人脸嘴型进行修正,以及各句中文语音按其时间戳的加载,实现目标音频与目标人脸视频之间的同步,整个设计应用能够准确、且稳定的实现目标音频与目标视频的合成,提高实际音视频的效果。

    基于联合训练的人脸视频与音频的同步方法及系统

    公开(公告)号:CN113825005B

    公开(公告)日:2024-05-24

    申请号:CN202111159455.4

    申请日:2021-09-30

    IPC分类号: H04N21/43 H04N21/8547

    摘要: 本发明涉及基于联合训练的人脸视频与音频的同步方法及系统、计算机设备,采用其全新逻辑关系,基于样本视频中各发音口型分别所对应待处理音素序列,结合各个口型视频分别所对应待处理音素序列中预设指定音素的指定类型特征,以及各个口型视频分别所对应的指定类型口型特征,进行网络训练,获得口型特征生成模块;基于此获得目标音频中各句中文语音分别所对应的指定类型口型特征序列,用于针对各句中文语音分别所对应目标人脸视频中相应视频段的人脸嘴型进行修正,以及各句中文语音按其时间戳的加载,实现目标音频与目标人脸视频之间的同步,整个设计应用能够准确、且稳定的实现目标音频与目标视频的合成,提高实际音视频的效果。