-
公开(公告)号:CN118522303A
公开(公告)日:2024-08-20
申请号:CN202410437566.4
申请日:2024-04-11
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了数字人驱动及扩散模型训练方法和装置,涉及元宇宙、虚拟数字人、深度学习以及图像处理等人工智能领域。其中的方法可包括:获取目标图像,目标图像中包括待驱动的目标人物;获取目标人物对应的第一驱动音频,根据目标图像以及第一驱动音频,生成目标人物对应的初始驱动视频;获取目标人物对应的第二驱动音频,利用第二驱动音频对初始驱动视频中的目标人物进行驱动口型优化,得到作为驱动结果的目标驱动视频。应用本公开所述方案,可提升最终输出结果的准确性和鲁棒性等。
-
公开(公告)号:CN116310000B
公开(公告)日:2024-05-14
申请号:CN202310258632.7
申请日:2023-03-16
申请人: 北京百度网讯科技有限公司
摘要: 本公开涉及计算机视觉技术领域,尤其涉及数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域,具体涉及一种蒙皮数据生成方法、装置、电子设备及存储介质。具体实现方案为:根据待绑网格模型,对第一虚拟对象进行形态调整,获得第二虚拟对象,第二虚拟对象包括模型骨骼、且具有对应的标准蒙皮数据;根据标准蒙皮数据,生成目标蒙皮数据,目标蒙皮数据用于将待绑网格模型与模型骨骼进行绑定。采用本公开可以提高蒙皮数据的生成效率、且节省人力资源。
-
公开(公告)号:CN117788649A
公开(公告)日:2024-03-29
申请号:CN202311759354.X
申请日:2023-12-20
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T13/20 , G06T13/40 , G10L21/055 , G10L25/03
摘要: 本公开提供了一种数字人驱动模型的训练方法、数字人驱动方法及其装置,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域。该方法包括:基于样本视频确定目标图像的真值特征和参考图像的参考特征;基于样本音频确定目标图像的目标音频帧及对应的目标音频特征;从样本视频中选取视频帧集合,确定样本音频中视频帧集合对应的音频帧集合,基于音频帧集合的每个音频帧和目标音频帧的余弦相似度,确定目标图像的模板特征;基于参考图像、目标音频特征及模板特征生成目标图像特征,基于目标图像特征与真值特征之间的重建损失,对初始模型进行训练,得到数字人驱动模型。该方法提升了数字人驱动模型的驱动准确性。
-
公开(公告)号:CN116778041B
公开(公告)日:2023-12-12
申请号:CN202311061410.2
申请日:2023-08-22
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T13/20 , G06T13/40 , G10L21/10 , G06F18/25 , G06V40/20 , G06V40/16 , G06V10/74 , G06V10/774 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08
摘要: 本公开提供了一种基于多模态的人脸图像生成方法、模型的训练方法及设备,涉及人工智能领域,尤其涉及图像领域。具体实现方案为:获取待处理的数据集合和预设的人脸图像;其中,所述待处理的数据集合包括至少两种模态数据;所述模态数据为以下的任意一种:文本数据、音频数据、口型图像;所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应;所述预设的人脸图像为不具有口型的人脸图像;确定所述模态数据对应的口型特征;其中,口型特征用于(56)对比文件朱明会.“ 真实感三维人脸唇形动画系统的语音驱动”《.中国优秀硕士学位论文全文数据库(信息科技I辑)》.2014,全文.
-
公开(公告)号:CN116433826B
公开(公告)日:2023-09-29
申请号:CN202310678166.8
申请日:2023-06-08
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种虚拟形象驱动方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、虚拟现实、增强现实等技术,可用于元宇宙场景。具体实现方案为:获取包括真实形象的原始图片帧;确定真实形象在原始图片帧中的形象区域,以及形象区域所携带的形象特征数据;根据形象区域的区域属性信息和形象特征数据,确定透视投影情况下,真实形象对应虚拟形象在虚拟空间的虚拟位移数据;其中,原始图片帧所处全局二维空间为虚拟空间的透射投影结果;根据虚拟位移数据,驱动并展示虚拟形象。根据本公开的技术,提高了虚拟形象位移驱动的泛化性和驱动效果准确度。
-
公开(公告)号:CN116778041A
公开(公告)日:2023-09-19
申请号:CN202311061410.2
申请日:2023-08-22
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T13/20 , G06T13/40 , G10L21/10 , G06F18/25 , G06V40/20 , G06V40/16 , G06V10/74 , G06V10/774 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08
摘要: 本公开提供了一种基于多模态的人脸图像生成方法、模型的训练方法及设备,涉及人工智能领域,尤其涉及图像领域。具体实现方案为:获取待处理的数据集合和预设的人脸图像;其中,所述待处理的数据集合包括至少两种模态数据;所述模态数据为以下的任意一种:文本数据、音频数据、口型图像;所述文本数据所表征的文字内容、所述音频数据所表征的音频内容、以及所述口型图像所表征的口型三者相对应;所述预设的人脸图像为不具有口型的人脸图像;确定所述模态数据对应的口型特征;其中,口型特征用于表示口型在人脸图像上的大小信息和形状信息;根据模态数据对应的口型特征,对预设的人脸图像进行处理,生成具有口型的人脸图像。
-
公开(公告)号:CN116311519A
公开(公告)日:2023-06-23
申请号:CN202310271127.6
申请日:2023-03-17
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V40/20 , G06V20/40 , G06V10/82 , G06N3/08 , G06N3/0464
摘要: 本公开提供了一种动作识别方法、模型训练方法及装置,涉及人工智能技术领域,具体为计算机视觉、深度学习、增强现实、虚拟现实等技术领域,可应用于元宇宙、数字人等场景。实现方案为:获取视频中的当前视频帧,视频包括待识别的对象;确定对象在当前视频帧中的第一姿态信息;基于当前视频帧之前的多个历史视频帧,对第一姿态信息进行修正,以得到第二姿态信息;以及基于第二姿态信息,确定对象在当前视频帧中的动作。
-
公开(公告)号:CN116309977A
公开(公告)日:2023-06-23
申请号:CN202310182162.0
申请日:2023-02-20
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T13/20 , G06T13/40 , G06V40/16 , G06V40/20 , G06V10/82 , G06N3/0455 , G10L25/63 , G10L19/18
摘要: 本公开提供了人脸驱动及模型获取方法、装置、电子设备及存储介质,涉及深度学习、虚拟数字人以及计算机视觉等人工智能领域。所述人脸驱动方法可包括:获取待驱动的目标三维人脸模型对应的目标音频数据,并对目标音频数据进行音频特征提取;利用预先训练得到的条件变分自编码器模型,确定出目标三维人脸模型对应的目标表情的表情隐向量;根据获取到的音频特征以及表情隐向量,利用条件变分自编码器模型,确定出人脸驱动参数;利用人脸驱动参数对目标三维人脸模型进行人脸驱动。应用本公开所述方案,可实现对于人脸表情的有效控制等。
-
公开(公告)号:CN116229214A
公开(公告)日:2023-06-06
申请号:CN202310272790.8
申请日:2023-03-20
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V10/774 , G06V10/80 , G06V40/16
摘要: 本公开提供了模型训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉技术领域。具体实现方案为:获取带表情人脸图像;将带表情人脸图像对应的带表情隐码特征分别输入隐码表情去除模型和初始隐码表情提取模型,获取无表情隐码特征和预测纯表情隐码特征;进而将获取的两种特征输入初始隐码表情融合模型,获取预测融合隐码特征;根据带表情人脸图像以及预测融合隐码特征解码得到的重建人脸图像,构建损失函数,并根据损失函数的数值对初始隐码表情提取模型以及初始隐码表情融合模型进行参数调整,实现训练,从而实现表情相关特征以及非表情相关特征的解耦,避免表情相关特征的调整对非表情相关特征的影响。
-
公开(公告)号:CN118537903A
公开(公告)日:2024-08-23
申请号:CN202410543639.8
申请日:2024-04-30
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V40/16 , G06V20/40 , G06V10/774 , G06V10/80
摘要: 本公开提供了人脸图像生成方法、模型训练方法、装置和电子设备,涉及人工智能技术领域,具体为增强现实AR、虚拟现实VR、计算机视觉、增强现实、深度学习等技术领域,可应用于基于人工智能的内容生成等场景。该人脸图像生成方法包括:获取待处理音频和目标人物的源图像,并对目标人物的源图像进行嘴部区域掩码得到经掩码的目标人物的源图像;获取预先确定的视素参考图像;视素参考图像为具有参考视素的辅助人脸图像,根据参考视素从辅助人物的音视频数据中提取得到;对待处理音频、经掩码的目标人物的源图像和视素参考图像进行处理,并根据处理结果为目标人物生成目标人脸图像;目标人脸图像中的口型与待处理音频匹配。
-
-
-
-
-
-
-
-
-