虚拟形象构建方法、装置、设备和存储介质

    公开(公告)号:CN116166125A

    公开(公告)日:2023-05-26

    申请号:CN202310233774.8

    申请日:2023-03-03

    IPC分类号: G06F3/01 G06F16/783

    摘要: 本公开提供了一种虚拟形象构建方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实等技术,可用于元宇宙、虚拟数字人等场景。具体实现方案为:获取待播报语音和包括待播报形象的待处理图片;提取所述待播报语音中的参考特征数据;根据所述参考特征数据,确定形象驱动数据;根据所述形象驱动数据、所述待处理图片和所述待播报语音,生成待播报视频。根据本公开的技术,降低了虚拟形象构建的成本,提高了虚拟形象构建的便捷性和效率。

    虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备

    公开(公告)号:CN113971828B

    公开(公告)日:2023-10-31

    申请号:CN202111261314.3

    申请日:2021-10-28

    摘要: 本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取语音片段和虚拟对象的目标脸部图像数据;将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。

    动画合成方法及装置、动画合成模型的训练方法及装置

    公开(公告)号:CN116433807A

    公开(公告)日:2023-07-14

    申请号:CN202310440855.5

    申请日:2023-04-21

    IPC分类号: G06T13/20 G06T13/40

    摘要: 本公开提供了一种动画合成方法及装置、动画合成模型的训练方法及装置,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。实现方案为:获取音频文件和影像文件,其中,音频文件包括语音信息,影像文件包括目标人物的面部图像;基于音频文件,获取语音特征;基于影像文件,分别获取影像文件中的目标人物的面部特征和身份特征;以及根据语音特征、面部特征和身份特征生成关于目标人物的合成动画。

    动画合成方法及装置、动画合成模型的训练方法及装置

    公开(公告)号:CN116433807B

    公开(公告)日:2024-08-23

    申请号:CN202310440855.5

    申请日:2023-04-21

    IPC分类号: G06T13/20 G06T13/40

    摘要: 本公开提供了一种动画合成方法及装置、动画合成模型的训练方法及装置,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。实现方案为:获取音频文件和影像文件,其中,音频文件包括语音信息,影像文件包括目标人物的面部图像;基于音频文件,获取语音特征;基于影像文件,分别获取影像文件中的目标人物的面部特征和身份特征;以及根据语音特征、面部特征和身份特征生成关于目标人物的合成动画。

    虚拟形象构建方法、装置、设备和存储介质

    公开(公告)号:CN116166125B

    公开(公告)日:2024-04-23

    申请号:CN202310233774.8

    申请日:2023-03-03

    IPC分类号: G06F3/01 G06F16/783

    摘要: 本公开提供了一种虚拟形象构建方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实等技术,可用于元宇宙、虚拟数字人等场景。具体实现方案为:获取待播报语音和包括待播报形象的待处理图片;提取所述待播报语音中的参考特征数据;根据所述参考特征数据,确定形象驱动数据;根据所述形象驱动数据、所述待处理图片和所述待播报语音,生成待播报视频。根据本公开的技术,降低了虚拟形象构建的成本,提高了虚拟形象构建的便捷性和效率。

    唇形驱动模型的生成方法、装置、电子设备及存储介质

    公开(公告)号:CN116071467A

    公开(公告)日:2023-05-05

    申请号:CN202310023600.9

    申请日:2023-01-06

    摘要: 本公开提供了一种唇形驱动模型的生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、虚拟数字人等场景。包括:将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中,以获取唇形图像;根据唇形图像与样本脸部图像之间的差异,确定第一损失;将音频数据及唇形图像分别输入多个基于不同类型的语音训练生成的同步网络中,以获取每个同步网络输出的第二损失,根据第一损失及多个第二损失中的最小值,对初始唇形驱动模型进行修正,以获取唇形驱动模型。由此,生成的唇形驱动模型可以在不同类型的语音场景下,拥有较高的准确性。

    虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备

    公开(公告)号:CN113971828A

    公开(公告)日:2022-01-25

    申请号:CN202111261314.3

    申请日:2021-10-28

    摘要: 本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取语音片段和虚拟对象的目标脸部图像数据;将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。