数字人驱动方法、装置、设备及存储介质

    公开(公告)号:CN118404588A

    公开(公告)日:2024-07-30

    申请号:CN202410869132.1

    申请日:2024-07-01

    IPC分类号: B25J9/16 B25J11/00 B25J19/02

    摘要: 本申请公开了一种数字人驱动方法、装置、设备及存储介质,涉及人工智能技术领域,该方法包括:将待播报音频输入至预设数字人手部动作驱动模型;通过编码器对待播报音频进行编码,获得待播报音频对应的目标音频特征;通过解码器基于目标音频特征,以及待驱动数字人的历史手部动作关键点坐标确定目标手部动作关键点坐标;基于目标手部动作关键点坐标对待驱动数字人进行驱动。本发明基于待播报音频对应的目标音频特征以及历史手部动作关键点坐标确定目标手部动作关键点坐标,以基于目标手部动作关键点坐标驱动数字人,解决了现有技术中的数字人客服在与用户交流时由于缺少手部动作导致用户体验不佳的技术问题。

    数字人生成方法、装置、设备及存储介质

    公开(公告)号:CN118411452B

    公开(公告)日:2024-09-24

    申请号:CN202410869883.3

    申请日:2024-07-01

    IPC分类号: G06T13/20 G06T15/00 G10L21/10

    摘要: 本申请公开了一种数字人生成方法、装置、设备及存储介质,涉及数字人技术领域,包括:获取数字人音频,将数字人音频输入至预设Audio2Face模型中,得到预设Audio2Face模型输出的表情系数和头部姿态,Audio2Face模型用于根据输入的音频文件生成对应的表情系数和头部姿态;根据表情系数和头部姿态确定目标图像的颜色和透明度;基于目标图像的颜色和透明度渲染出目标图像,并根据渲染出的目标图像生成数字人。相对于现有的通过三维建模软件手工创建数字人模型的方式,本申请能够生成实时性高,人物画面质量高、表情丰富的数字人。

    数字人生成方法、装置、设备及存储介质

    公开(公告)号:CN118411452A

    公开(公告)日:2024-07-30

    申请号:CN202410869883.3

    申请日:2024-07-01

    IPC分类号: G06T13/20 G06T15/00 G10L21/10

    摘要: 本申请公开了一种数字人生成方法、装置、设备及存储介质,涉及数字人技术领域,包括:获取数字人音频,将数字人音频输入至预设Audio2Face模型中,得到预设Audio2Face模型输出的表情系数和头部姿态,Audio2Face模型用于根据输入的音频文件生成对应的表情系数和头部姿态;根据表情系数和头部姿态确定目标图像的颜色和透明度;基于目标图像的颜色和透明度渲染出目标图像,并根据渲染出的目标图像生成数字人。相对于现有的通过三维建模软件手工创建数字人模型的方式,本申请能够生成实时性高,人物画面质量高、表情丰富的数字人。

    数字人驱动方法、装置、设备及存储介质

    公开(公告)号:CN118404588B

    公开(公告)日:2024-09-13

    申请号:CN202410869132.1

    申请日:2024-07-01

    IPC分类号: B25J9/16 B25J11/00 B25J19/02

    摘要: 本申请公开了一种数字人驱动方法、装置、设备及存储介质,涉及人工智能技术领域,该方法包括:将待播报音频输入至预设数字人手部动作驱动模型;通过编码器对待播报音频进行编码,获得待播报音频对应的目标音频特征;通过解码器基于目标音频特征,以及待驱动数字人的历史手部动作关键点坐标确定目标手部动作关键点坐标;基于目标手部动作关键点坐标对待驱动数字人进行驱动。本发明基于待播报音频对应的目标音频特征以及历史手部动作关键点坐标确定目标手部动作关键点坐标,以基于目标手部动作关键点坐标驱动数字人,解决了现有技术中的数字人客服在与用户交流时由于缺少手部动作导致用户体验不佳的技术问题。

    数字人驱动方法、装置、设备及存储介质

    公开(公告)号:CN118037908A

    公开(公告)日:2024-05-14

    申请号:CN202410280931.5

    申请日:2024-03-12

    IPC分类号: G06T13/40 G06T13/20

    摘要: 本发明涉及人工智能技术领域,公开了一种数字人驱动方法、装置、设备及存储介质,该方法包括:根据待播报语言生成待驱动数字人对应的数字人音频和音素序列信息;基于音素序列信息和动作状态机确定待驱动数字人对应的数字人肢体语言;根据数字人肢体语言生成数字人图像序列;基于数字人音频和数字人图像序列生成数字人视频;通过待驱动数字人呈现数字人视频。由于本发明基于待驱动数字人对应的数字人音频和数字人肢体语言生成数字人视频,并通过待驱动数字人查询数字人视频,从而解决了现有技术中通过真人表演驱动方式驱动数字人需要耗费大量的人力资源,成本较高的技术问题。