专利检索 ap:("北京百度网讯科技有限公司") AND inv:"郭紫垣" 第 1 页

1.

发明授权
虚拟形象生成方法、装置、设备、存储介质以及程序产品有权

公开(公告)号：CN114999440B

公开(公告)日：2024-07-26

申请号：CN202210572328.5

申请日：2022-05-24

申请人： 北京百度网讯科技有限公司

发明人： 郭紫垣

IPC分类号： G10L13/02 , G10L13/08 , G06V40/16 , G10L21/0208 , G10L21/0264 , G10L25/24 , G10L25/30

摘要： 本公开提供了一种虚拟形象生成方法、装置、设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：对初始语音数据中包括的噪声音频进行过滤处理，得到过滤后的第一语音数据，其中，初始语音数据包括噪声音频；确定第一语音数据包括的各语音单元的语音单元时长和第一语音数据对应的语音文本，语音单元时长用于表征语音单元对应的发音时长；将语音文本进行语音转换，得到第二语音数据；基于第一语音数据中各语音单元的语音单元时长，调整第二语音数据中相应语音单元的语音单元时长，得到目标语音数据；以及根据目标语音数据，生成虚拟形象。

2.

发明公开
表情生成模型的训练方法、表情生成的方法及装置审中-实审

公开(公告)号：CN116468826A

公开(公告)日：2023-07-21

申请号：CN202310723506.4

申请日：2023-06-16

申请人： 北京百度网讯科技有限公司

发明人： 杜宗财 , 范锡睿 , 赵亚飞 , 郭紫垣 , 王志强 , 陈毅

IPC分类号： G06T13/20 , G06T13/40 , G06N3/08 , G10L25/03

摘要： 本公开提供了表情生成模型的训练方法、表情生成的方法及装置，涉及计算机技术领域，尤其涉及虚拟数字人、人工智能增强现实、虚拟现实、混合现实、扩展现实、元宇宙、深度学习等技术领域。具体实现方案为：根据训练样本生成第一口型控制特征和第一表情驱动参数；将训练样本的音频特征和第一口型控制特征输入第一表情生成模型，预测得到第二表情驱动参数；根据训练样本的真实表情驱动参数、第一表情驱动参数和第二表情驱动参数，得到损失函数；以及根据损失函数，对第一表情生成模型进行更新，以得到训练后的第二表情生成模型。本公开可以提升通过音频驱动数字人说话时口型的多样性，得到更加个性化的口型风格。

3.

发明公开
蒙皮数据生成方法、装置、电子设备及存储介质有权

公开(公告)号：CN116310000A

公开(公告)日：2023-06-23

申请号：CN202310258632.7

申请日：2023-03-16

申请人： 北京百度网讯科技有限公司

发明人： 郭紫垣 , 赵亚飞 , 张世昌 , 范锡睿 , 王志强 , 陈毅 , 杜宗财

IPC分类号： G06T13/40 , G06T17/00

摘要： 本公开涉及计算机视觉技术领域，尤其涉及数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域，具体涉及一种蒙皮数据生成方法、装置、电子设备及存储介质。具体实现方案为：根据待绑网格模型，对第一虚拟对象进行形态调整，获得第二虚拟对象，第二虚拟对象包括模型骨骼、且具有对应的标准蒙皮数据；根据标准蒙皮数据，生成目标蒙皮数据，目标蒙皮数据用于将待绑网格模型与模型骨骼进行绑定。采用本公开可以提高蒙皮数据的生成效率、且节省人力资源。

4.

发明公开
深度学习模型的训练方法、控制虚拟形象口型变化的方法审中-实审

公开(公告)号：CN116013354A

公开(公告)日：2023-04-25

申请号：CN202310306535.0

申请日：2023-03-24

申请人： 北京百度网讯科技有限公司

发明人： 杜宗财 , 范锡睿 , 赵亚飞 , 张世昌 , 郭紫垣 , 王志强 , 陈毅

IPC分类号： G10L21/10 , G10L25/27

摘要： 本公开提供了一种深度学习模型的训练方法，涉及人工智能技术领域，尤其涉及虚拟数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。具体实现方案为：从指定长度的初始样本音频数据中确定随机长度的音频数据为有效数据，并掩蔽初始样本音频数据中除有效数据以外的音频数据，得到目标样本音频数据；提取目标样本音频数据的特征；将目标样本音频数据的特征输入深度学习模型，得到与初始样本音频数据对应的输出口型参数；根据输出口型参数确定深度学习模型的损失；以及根据损失调整深度学习模型的参数。本公开还提供了一种控制虚拟形象口型变化的方法、装置、电子设备和存储介质。

5.

发明公开
驱动虚拟数字形象唱歌的方法及其装置审中-实审

公开(公告)号：CN115083371A

公开(公告)日：2022-09-20

申请号：CN202210637106.7

申请日：2022-06-07

申请人： 北京百度网讯科技有限公司

发明人： 郭紫垣

IPC分类号： G10H1/00 , G06V40/16 , G06V10/46 , G06T13/40

摘要： 本公开提供了一种驱动虚拟数字形象唱歌的方法及其装置，涉及人工智能技术领域，尤其涉及虚拟数字形象、智能媒体等技术领域。具体实现方案为：获取虚拟数字形象、目标旋律和文本数据；获取目标旋律的节奏数据，并基于节奏数据对文本数据进行处理以获取初始歌曲；获取目标旋律的音调数据和目标旋律的频率数据，并基于音调数据和频率数据对初始歌曲进行修正，获取目标歌曲；基于文本数据确定虚拟数字形象对应的目标口型系数序列，并基于目标口型系数序列驱动虚拟数字形象对目标歌曲进行演唱。本公开实现了对歌曲旋律以及歌词文本进行建模来生成特定节奏的目标歌曲，并以此来对虚拟数字形象进行精准自然的口型驱动，实现虚拟数字形象唱歌。

6.

发明公开
交互信息处理方法、网络模型的训练方法及装置审中-实审

公开(公告)号：CN114895817A

公开(公告)日：2022-08-12

申请号：CN202210572266.8

申请日：2022-05-24

申请人： 北京百度网讯科技有限公司

发明人： 郭紫垣

IPC分类号： G06F3/04815 , G06T13/40 , G06T13/20 , G06T19/00 , G06K9/62 , G06F40/289 , G06N3/04 , G06N3/08

摘要： 本公开提供了一种交互信息处理方法、网络模型的训练方法及装置、设备、介质和产品，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于3D视觉、增强现实、虚拟现实等场景。具体实现方案包括：响应于获取的交互输入信息，确定交互响应信息；根据交互输入信息和交互响应信息，确定针对预设虚拟形象模型的面部驱动参数和肢体驱动参数；以及将面部驱动参数和肢体驱动参数应用于虚拟形象模型，得到基于交互响应信息的交互响应视频。

7.

发明公开
关节姿态参数的确定方法、模型训练方法及装置审中-实审

公开(公告)号：CN114630190A

公开(公告)日：2022-06-14

申请号：CN202210193587.7

申请日：2022-02-28

申请人： 北京百度网讯科技有限公司

发明人： 郭紫垣 , 赵亚飞 , 张世昌 , 范锡睿

IPC分类号： H04N21/81 , G06V40/20 , G06V10/40 , G06V10/774

摘要： 本公开提供的关节姿态参数的确定方法、模型训练方法及装置，涉及深度学习技术、增强现实技术和数字人技术领域，包括：获取用于驱动数字人动作的音频数据和视频数据；视频数据中包括人物动作画面；提取音频数据中包括的音频帧的音频特征，以及视频数据中包括的视频帧的动作特征；根据音频特征和动作特征，确定出关节姿态参数，关节姿态参数用于控制数字人的动作。本公开提供的方案中，能够提取视频画面中人物做出的动作特征，并融合音频数据中的音频特征，得到关节姿态参数，使得关节姿态参数符合人物动作的特征，又符合音频数据中的音频特征，从而实现数字人的高效、高精度驱动。

8.

发明公开
视频图像生成方法、装置、设备、介质和计算机程序产品有权

公开(公告)号：CN113380269A

公开(公告)日：2021-09-10

申请号：CN202110638711.1

申请日：2021-06-08

申请人： 北京百度网讯科技有限公司

发明人： 赵亚飞 , 张世昌 , 郭紫垣 , 陈超

IPC分类号： G10L21/10 , G10L21/18 , G10L25/30 , H04N5/222 , H04N5/262

摘要： 本公开提供了视频图像生成方法、装置、设备、介质和计算机程序产品，涉及计算机领域，进一步涉及人工智能技术领域。具体实现方案为：获取目标语音；基于目标语音确定对象参数集合；对象参数集合包含目标语音的各个语音时间点对应的目标对象的对象参数；对于每个语音时间点，基于该语音时间点对应的对象参数，渲染目标对象的人像图像，得到渲染图像；基于各个语音时间点的渲染图像和目标对象的底版图像，生成目标视频图像。本实现方式可以提高生成的视频图像的清晰度。

9.

发明公开
三维人脸的唇动控制方法、设备和介质审中-实审

公开(公告)号：CN113035198A

公开(公告)日：2021-06-25

申请号：CN202110221201.4

申请日：2021-02-26

申请人： 北京百度网讯科技有限公司

发明人： 郭紫垣 , 赵亚飞 , 陈超 , 张世昌

IPC分类号： G10L15/25 , G06K9/00 , G06F40/289

摘要： 本公开提供了一种三维人脸的唇动控制方法，涉及人工智能技术领域，尤其涉及深度学习和语音处理技术领域。实现方案为：首先，对目标语音相应的文本进行切分，得到一个或多个字；然后，基于目标语音的音色特征，从向量库中获取所述一个或多个字中每一个字相应的第一向量，所述向量库包括与每一个字相应的不同于第一向量的第二向量；至少基于所述一个或多个字相应的一个或多个第一向量，确定与所述目标语音相应的目标混合系数；至少基于所述目标混合系数控制所述三维人脸的唇动，以使得所述三维人脸的唇动适配所述目标语音。

10.

发明授权
视线方向的控制、视线交流方法、装置、设备及介质有权

公开(公告)号：CN116382475B

公开(公告)日：2024-05-14

申请号：CN202310308842.2

申请日：2023-03-24

申请人： 北京百度网讯科技有限公司

发明人： 王志强 , 赵亚飞 , 张世昌 , 郭紫垣 , 范锡睿 , 陈毅 , 杜宗财 , 孙权 , 刘倩

IPC分类号： G06F3/01 , G06V40/18

摘要： 本公开提供了一种视线方向的控制、视线交流方法、装置、设备和存储介质，涉及人工智能技术领域，尤其涉及视频交互技术领域。具体实现方案为：获取待视线方向控制的目标实际眼图；根据视线控制方向，在目标实际眼图中确定瞳孔控制位置，并根据瞳孔控制位置，生成与目标实际眼图对应的目标虚拟眼图；根据标准实际眼图与标准虚拟眼图之间的图像映射关系，将目标虚拟眼图转换为视线控制方向下的目标实际控制眼图。本公开实施例的技术方案可以直接根据实际所需的视线控制方向，构建得到满足视线控制方向的虚拟眼图，并通过图像到图像的映射关系，显式得到满足该视线控制方向的实际调整眼图，实现方式简单、准确度高且效果稳定。

搜索结果

国家/区域

专利有效性

申请日

公布(公告)日

申请人

申请人所在国/区域

发明人

IPC

IPC部

IPC大类

IPC小类

IPC大组

IPC小组

外观分类