-
公开(公告)号:CN116166125A
公开(公告)日:2023-05-26
申请号:CN202310233774.8
申请日:2023-03-03
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F3/01 , G06F16/783
摘要: 本公开提供了一种虚拟形象构建方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实等技术,可用于元宇宙、虚拟数字人等场景。具体实现方案为:获取待播报语音和包括待播报形象的待处理图片;提取所述待播报语音中的参考特征数据;根据所述参考特征数据,确定形象驱动数据;根据所述形象驱动数据、所述待处理图片和所述待播报语音,生成待播报视频。根据本公开的技术,降低了虚拟形象构建的成本,提高了虚拟形象构建的便捷性和效率。
-
公开(公告)号:CN113971828B
公开(公告)日:2023-10-31
申请号:CN202111261314.3
申请日:2021-10-28
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V40/16 , G06V10/774 , G06V10/766 , G06V10/74
摘要: 本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取语音片段和虚拟对象的目标脸部图像数据;将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。
-
公开(公告)号:CN116433807A
公开(公告)日:2023-07-14
申请号:CN202310440855.5
申请日:2023-04-21
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种动画合成方法及装置、动画合成模型的训练方法及装置,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。实现方案为:获取音频文件和影像文件,其中,音频文件包括语音信息,影像文件包括目标人物的面部图像;基于音频文件,获取语音特征;基于影像文件,分别获取影像文件中的目标人物的面部特征和身份特征;以及根据语音特征、面部特征和身份特征生成关于目标人物的合成动画。
-
公开(公告)号:CN116433807B
公开(公告)日:2024-08-23
申请号:CN202310440855.5
申请日:2023-04-21
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种动画合成方法及装置、动画合成模型的训练方法及装置,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。实现方案为:获取音频文件和影像文件,其中,音频文件包括语音信息,影像文件包括目标人物的面部图像;基于音频文件,获取语音特征;基于影像文件,分别获取影像文件中的目标人物的面部特征和身份特征;以及根据语音特征、面部特征和身份特征生成关于目标人物的合成动画。
-
公开(公告)号:CN115345968B
公开(公告)日:2023-02-07
申请号:CN202211276271.0
申请日:2022-10-19
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T13/20 , G06N20/00 , G06T13/40 , G06T13/80 , G06V10/764 , G06V40/16 , G06V40/20 , G10L15/02
摘要: 本公开提供了一种虚拟对象驱动方法、深度学习网络的训练方法及装置、设备、介质和产品,涉及人工智能领域,尤其涉及深度学习、计算机视觉、虚拟/增强现实和图像处理技术领域,可应用于虚拟数字人、元宇宙等场景。具体实现方案包括:响应于获取的语音数据,确定基于语音数据的初始语音特征;对初始语音特征进行时序增强处理,得到目标语音特征;基于目标语音特征和目标虚拟对象的基准面部图像,生成针对目标虚拟对象的唇形图像序列;以及根据唇形图像序列,对目标虚拟对象进行驱动,以使目标虚拟对象执行与语音数据匹配的唇部动作。
-
公开(公告)号:CN115345968A
公开(公告)日:2022-11-15
申请号:CN202211276271.0
申请日:2022-10-19
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T13/20 , G06N20/00 , G06T13/40 , G06T13/80 , G06V10/764 , G06V40/16 , G06V40/20 , G10L15/02
摘要: 本公开提供了一种虚拟对象驱动方法、深度学习网络的训练方法及装置、设备、介质和产品,涉及人工智能领域,尤其涉及深度学习、计算机视觉、虚拟/增强现实和图像处理技术领域,可应用于虚拟数字人、元宇宙等场景。具体实现方案包括:响应于获取的语音数据,确定基于语音数据的初始语音特征;对初始语音特征进行时序增强处理,得到目标语音特征;基于目标语音特征和目标虚拟对象的基准面部图像,生成针对目标虚拟对象的唇形图像序列;以及根据唇形图像序列,对目标虚拟对象进行驱动,以使目标虚拟对象执行与语音数据匹配的唇部动作。
-
公开(公告)号:CN118691717A
公开(公告)日:2024-09-24
申请号:CN202410693165.5
申请日:2024-05-30
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T13/20 , H04N21/81 , G06T13/40 , G06T17/20 , G06V40/16 , G06V10/82 , G06N3/045 , G06N3/0455 , G06N3/0475 , G06N3/08 , G06N3/094
摘要: 本公开提供了一种视频生成方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习等技术领域,可应用于基于人工智能的内容生成等场景。具体实现方案为:将语音文件和待驱动人脸视频输入预训练的第一模型,由该第一模型输出三维人脸网格序列;其中,该三维人脸网格序列与该语音文件的语音特征相对应,并且与该待驱动人脸视频的人脸特征和说话风格特征相对应;基于该三维人脸网格序列和该待驱动人脸视频,生成与该语音文件匹配的语音驱动人脸视频。
-
公开(公告)号:CN116166125B
公开(公告)日:2024-04-23
申请号:CN202310233774.8
申请日:2023-03-03
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F3/01 , G06F16/783
摘要: 本公开提供了一种虚拟形象构建方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实等技术,可用于元宇宙、虚拟数字人等场景。具体实现方案为:获取待播报语音和包括待播报形象的待处理图片;提取所述待播报语音中的参考特征数据;根据所述参考特征数据,确定形象驱动数据;根据所述形象驱动数据、所述待处理图片和所述待播报语音,生成待播报视频。根据本公开的技术,降低了虚拟形象构建的成本,提高了虚拟形象构建的便捷性和效率。
-
公开(公告)号:CN116071467A
公开(公告)日:2023-05-05
申请号:CN202310023600.9
申请日:2023-01-06
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T13/20 , G10L25/18 , G10L25/72 , G06T13/40 , G06N3/045 , G06N3/0464 , G06N3/0475 , G06N3/094
摘要: 本公开提供了一种唇形驱动模型的生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、虚拟数字人等场景。包括:将音频数据、遮罩图像及参考脸部图像输入初始唇形驱动模型中,以获取唇形图像;根据唇形图像与样本脸部图像之间的差异,确定第一损失;将音频数据及唇形图像分别输入多个基于不同类型的语音训练生成的同步网络中,以获取每个同步网络输出的第二损失,根据第一损失及多个第二损失中的最小值,对初始唇形驱动模型进行修正,以获取唇形驱动模型。由此,生成的唇形驱动模型可以在不同类型的语音场景下,拥有较高的准确性。
-
公开(公告)号:CN113971828A
公开(公告)日:2022-01-25
申请号:CN202111261314.3
申请日:2021-10-28
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V40/16 , G06V10/774 , G06V10/766 , G06V10/74 , G06K9/62
摘要: 本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取语音片段和虚拟对象的目标脸部图像数据;将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。
-
-
-
-
-
-
-
-
-