-
公开(公告)号:CN112102449B
公开(公告)日:2024-05-03
申请号:CN202010965379.5
申请日:2020-09-14
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T13/20 , G06F16/74 , G06F16/783
摘要: 本申请公开了一种虚拟人物的生成方法、展示方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉和图像处理领域。所述虚拟人物的生成方法包括:创建虚拟人物的第一动画视频和第二动画视频,虚拟人物在第一动画视频中表现为静默状态,虚拟人物在第二动画视频中表现为执行多个动作;将第二动画视频划分为与多个动作一一对应的多个动作视频,多个动作视频分别与多个语音指令相关联;针对每个动作视频,生成动作视频相对于预设帧的起始过渡帧和结尾过渡帧;以及生成虚拟人物的展示数据,展示数据包括第一动画视频、多个动作视频、多个动作视频与多个语音指令的关联以及每个动作视频相对于预设帧的起始过渡帧和结尾过渡帧。
-
公开(公告)号:CN113971828B
公开(公告)日:2023-10-31
申请号:CN202111261314.3
申请日:2021-10-28
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V40/16 , G06V10/774 , G06V10/766 , G06V10/74
摘要: 本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取语音片段和虚拟对象的目标脸部图像数据;将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。
-
公开(公告)号:CN116912402A
公开(公告)日:2023-10-20
申请号:CN202310798900.4
申请日:2023-06-30
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种人脸重建的方法,涉及计算机视觉技术领域,尤其涉及人脸重建装置、电子设备、存储介质。具体实现方案为:根据目标人脸的多个视角的人脸图像,生成人脸点云模型;基于人脸图像、人脸点云模型确定初始三维人脸模型的模型变换参数,并基于模型变换参数对初始三维人脸模型进行变换,得到与目标人脸相对应的三维人脸模型。
-
公开(公告)号:CN116433807A
公开(公告)日:2023-07-14
申请号:CN202310440855.5
申请日:2023-04-21
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种动画合成方法及装置、动画合成模型的训练方法及装置,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、数字人等场景。实现方案为:获取音频文件和影像文件,其中,音频文件包括语音信息,影像文件包括目标人物的面部图像;基于音频文件,获取语音特征;基于影像文件,分别获取影像文件中的目标人物的面部特征和身份特征;以及根据语音特征、面部特征和身份特征生成关于目标人物的合成动画。
-
公开(公告)号:CN113963087A
公开(公告)日:2022-01-21
申请号:CN202111189380.4
申请日:2021-10-12
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了图像处理方法、图像处理模型训练方法、装置及存储介质,涉及人工智能领域的计算机视觉、深度学习等领域。具体实现方案为:将所述待编辑图像在生成对抗网络的S空间进行编码,获取第一隐编码;其中,所述生成对抗网络为基于样式的生成对抗网络;将所述文本描述信息进行编码,获取文本图像的文本编码,并将所述文本编码在所述S空间上进行映射,获取第二隐编码;将所述第一隐编码和第二隐编码进行距离优化,获取满足距离要求的目标隐编码;基于所述目标隐编码生成所述目标图像。能够在编辑图像的某一部分时对其它无需编辑的部分产生的影响更小;并能够有效提升优化速度。
-
公开(公告)号:CN112989935A
公开(公告)日:2021-06-18
申请号:CN202110163607.1
申请日:2021-02-05
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了一种视频生成方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉计算机视觉和深度学习领域。具体实现方案为:根据待生成视频的人物情绪特征,更换原始人物图像的人物情绪,得到目标人物图像;采用人物驱动网络,基于语音片段驱动所述目标人物图像,得到所述待生成视频。能够在语音驱动人物图像,生成人物视频的过程中,编辑人物情绪,提高生成人物视频的灵活性,为图像驱动技术的发展提供了一种新思路。
-
公开(公告)号:CN112100352A
公开(公告)日:2020-12-18
申请号:CN202010962857.7
申请日:2020-09-14
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了与虚拟对象的对话方法、装置、客户端及存储介质,涉及人工智能领域,具体为自然语言处理、知识图谱、计算机视觉和语音技术领域。具体实现方案为:所述方法应用于客户端,在客户端处于离线模式的情况下,将客户端采集的第一语音转换成第一文本内容;基于离线自然语言处理NLP和/或客户端预先存储的目标数据库,获取针对第一文本内容进行应答的第二文本内容;对第二文本内容进行语音合成,以得到第二语音;使用虚拟对象对第二语音进行口型模拟,得到虚拟对象使用第二语音发言的目标视频;播放目标视频。根据本申请的技术,解决了与虚拟对象实时对话过程中的网络传输问题,提高了与虚拟对象的实时对话的实现效果。
-
公开(公告)号:CN111861955A
公开(公告)日:2020-10-30
申请号:CN202010576505.8
申请日:2020-06-22
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了一种构建图像编辑模型的方法、装置、电子设备和计算机可读存储介质,涉及图像处理、深度学习技术领域。本申请在构建图像编辑模型时所采用的实现方案为:获取训练样本,所述训练样本中包含第一图像及其对应的第二图像;构建包含生成器与判别器的生成对抗网络,其中所述生成器包含背景图像生成分支、掩码图像生成分支以及前景图像生成分支;根据第一图像及其对应的第二图像训练所述生成对抗网络,将训练得到的所述生成对抗网络中的生成器作为图像编辑模型。本申请所构建的图像编辑模型能够对生成图像的缺失背景进行填补,从而提升所构建的图像编辑模型的编辑性能。
-
公开(公告)号:CN112017141B
公开(公告)日:2024-06-04
申请号:CN202010963670.9
申请日:2020-09-14
申请人: 北京百度网讯科技有限公司
IPC分类号: G06T5/50
摘要: 本申请公开了视频数据处理方法和装置,涉及计算机视觉和深度学习技术领域。具体实施方式包括:获取对第一人物的动态形象拍摄的视频,作为动态模板视频;利用目标图像中的第二人物的目标人脸,更换预设人物视频中的人脸,得到含目标视频,其中,含目标视频所包含人脸的属性形象为目标人脸的属性形象,含目标视频所包含人脸的动态形象为预设人物视频所包含的人脸的动态形象;以含目标视频中的头像,更换动态模板视频中的头像,得到头像更换视频。本申请可以利用将图像中人脸的属性,添加到可以构建虚拟形象的视频中,从而实现可以驱动包括该图像中人脸的属性的虚拟形象。此外,通过动态模板视频,有助于给虚拟形象添加丰富的动态形象。
-
公开(公告)号:CN112131988B
公开(公告)日:2024-03-26
申请号:CN202010962995.5
申请日:2020-09-14
申请人: 北京百度网讯科技有限公司
IPC分类号: G06V40/16 , G06V10/75 , G06V10/762 , G06V10/82 , G06N3/0464 , G06N3/049 , G06N3/08 , G10L13/02 , G10L21/10
摘要: 本申请公开了一种确定虚拟人物唇形的方法、装置、设备和计算机存储介质,涉及人工智能技术,具体涉及计算机视觉和深度学习技术。具体实现方案为:确定语音对应的音素序列,所述音素序列中包括各时间点对应的音素;确定所述音素序列中各音素对应的唇形关键点信息;根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像;将检索到的各音素的唇形图像与所述各时间点相对应,得到所述语音对应的唇形图像序列。通过本申请能够实现语音和图像中唇形的同步。
-
-
-
-
-
-
-
-
-