数字人驱动及扩散模型训练方法和装置

    公开(公告)号:CN118522303A

    公开(公告)日:2024-08-20

    申请号:CN202410437566.4

    申请日:2024-04-11

    摘要: 本公开提供了数字人驱动及扩散模型训练方法和装置,涉及元宇宙、虚拟数字人、深度学习以及图像处理等人工智能领域。其中的方法可包括:获取目标图像,目标图像中包括待驱动的目标人物;获取目标人物对应的第一驱动音频,根据目标图像以及第一驱动音频,生成目标人物对应的初始驱动视频;获取目标人物对应的第二驱动音频,利用第二驱动音频对初始驱动视频中的目标人物进行驱动口型优化,得到作为驱动结果的目标驱动视频。应用本公开所述方案,可提升最终输出结果的准确性和鲁棒性等。

    蒙皮数据生成方法、装置、电子设备及存储介质

    公开(公告)号:CN116310000B

    公开(公告)日:2024-05-14

    申请号:CN202310258632.7

    申请日:2023-03-16

    IPC分类号: G06T13/40 G06T17/00

    摘要: 本公开涉及计算机视觉技术领域,尤其涉及数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域,具体涉及一种蒙皮数据生成方法、装置、电子设备及存储介质。具体实现方案为:根据待绑网格模型,对第一虚拟对象进行形态调整,获得第二虚拟对象,第二虚拟对象包括模型骨骼、且具有对应的标准蒙皮数据;根据标准蒙皮数据,生成目标蒙皮数据,目标蒙皮数据用于将待绑网格模型与模型骨骼进行绑定。采用本公开可以提高蒙皮数据的生成效率、且节省人力资源。

    数字人驱动模型的训练方法、数字人驱动方法及其装置

    公开(公告)号:CN117788649A

    公开(公告)日:2024-03-29

    申请号:CN202311759354.X

    申请日:2023-12-20

    摘要: 本公开提供了一种数字人驱动模型的训练方法、数字人驱动方法及其装置,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。该方法包括:基于样本视频确定目标图像的真值特征和参考图像的参考特征;基于样本音频确定目标图像的目标音频帧及对应的目标音频特征;从样本视频中选取视频帧集合,确定样本音频中视频帧集合对应的音频帧集合,基于音频帧集合的每个音频帧和目标音频帧的余弦相似度,确定目标图像的模板特征;基于参考图像、目标音频特征及模板特征生成目标图像特征,基于目标图像特征与真值特征之间的重建损失,对初始模型进行训练,得到数字人驱动模型。该方法提升了数字人驱动模型的驱动准确性。

    虚拟形象驱动方法、装置、设备和介质

    公开(公告)号:CN116433826B

    公开(公告)日:2023-09-29

    申请号:CN202310678166.8

    申请日:2023-06-08

    摘要: 本公开提供了一种虚拟形象驱动方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、虚拟现实、增强现实等技术,可用于元宇宙场景。具体实现方案为:获取包括真实形象的原始图片帧;确定真实形象在原始图片帧中的形象区域,以及形象区域所携带的形象特征数据;根据形象区域的区域属性信息和形象特征数据,确定透视投影情况下,真实形象对应虚拟形象在虚拟空间的虚拟位移数据;其中,原始图片帧所处全局二维空间为虚拟空间的透射投影结果;根据虚拟位移数据,驱动并展示虚拟形象。根据本公开的技术,提高了虚拟形象位移驱动的泛化性和驱动效果准确度。

    模型训练方法、装置及电子设备
    9.
    发明公开

    公开(公告)号:CN116229214A

    公开(公告)日:2023-06-06

    申请号:CN202310272790.8

    申请日:2023-03-20

    摘要: 本公开提供了模型训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域。具体实现方案为:获取带表情人脸图像;将带表情人脸图像对应的带表情隐码特征分别输入隐码表情去除模型和初始隐码表情提取模型,获取无表情隐码特征和预测纯表情隐码特征;进而将获取的两种特征输入初始隐码表情融合模型,获取预测融合隐码特征;根据带表情人脸图像以及预测融合隐码特征解码得到的重建人脸图像,构建损失函数,并根据损失函数的数值对初始隐码表情提取模型以及初始隐码表情融合模型进行参数调整,实现训练,从而实现表情相关特征以及非表情相关特征的解耦,避免表情相关特征的调整对非表情相关特征的影响。

    人脸图像生成方法、模型训练方法、装置和电子设备

    公开(公告)号:CN118537903A

    公开(公告)日:2024-08-23

    申请号:CN202410543639.8

    申请日:2024-04-30

    摘要: 本公开提供了人脸图像生成方法、模型训练方法、装置和电子设备,涉及人工智能技术领域,具体为增强现实AR、虚拟现实VR、计算机视觉、增强现实、深度学习等技术领域,可应用于基于人工智能的内容生成等场景。该人脸图像生成方法包括:获取待处理音频和目标人物的源图像,并对目标人物的源图像进行嘴部区域掩码得到经掩码的目标人物的源图像;获取预先确定的视素参考图像;视素参考图像为具有参考视素的辅助人脸图像,根据参考视素从辅助人物的音视频数据中提取得到;对待处理音频、经掩码的目标人物的源图像和视素参考图像进行处理,并根据处理结果为目标人物生成目标人脸图像;目标人脸图像中的口型与待处理音频匹配。