一种数字人稳定头部姿势生成的方法、装置及介质

    公开(公告)号:CN118429869B

    公开(公告)日:2024-09-10

    申请号:CN202410896101.5

    申请日:2024-07-05

    摘要: 本发明涉及人工智能领域,具体是一种数字人稳定头部姿势生成的方法、装置及介质。本发明采用四阶段由粗到细的3DMM重建方法实现了稳定的数字人头部同步。通过稠密的面部和头部关键点检测获得稠密的监督信号,并关注对头部姿势更具影响力的关键点,去除干扰点,以支撑数字人3DMM和头部联合姿态的高精度计算;通过平滑方法平滑视频中每帧内人脸和头部关键点在长时序上存在的信号抖动,更加契合真人头部运动的自然度和连续性;通过深度估计获得2D空间关键点在3D空间内的对应坐标,使用在2D和3D空间中同时具有坐标值标记的关键点进行3D监督,以克服仅在2D空间内使用投影关键点和跟踪关键点进行监督带来的弱监督性。

    引入ESA的2D数字人人像抠图方法及系统

    公开(公告)号:CN118397265A

    公开(公告)日:2024-07-26

    申请号:CN202410324652.4

    申请日:2024-03-21

    摘要: 本发明公开了引入ESA的2D数字人人像抠图方法及系统,属于图像处理技术领域,要解决的技术问题为如何基于空间注意力机制实现性能延迟平衡的人像抠图。包括如下步骤:采集数据集,包括coco8‑seg数据集以及开源的P3M‑10k人像抠图数据集;构建样本数据集,样本数据集中包括保护了人脸隐私的图像和没有人脸隐私问题的图像;对图像以及对应的遮罩进行数据增强以及图像预处理;在RepVit网络模型中引入ESA模块得到ESA‑RepViT主干网络模型,将ESA‑RepViT主干网络模型作为主干网络、基于YOLOv8网络构建人像抠图网络模型;通过训练后人像抠图网络模型进行特征提取,输出对应的遮罩。

    2D图像数字人说话人脸生成的方法及系统

    公开(公告)号:CN118397156A

    公开(公告)日:2024-07-26

    申请号:CN202410318563.9

    申请日:2024-03-20

    摘要: 本发明公开了2D图像数字人说话人脸生成的方法及系统,属于人工智能技术领域,要解决的技术问题为驱动单张图片的情况下实现面部表情和头部姿态的自然生成、并确保面部表情的逼真度。通过I2Tri‑plane模型实现了源图像到三平面表示的轻量级提取,通过A2PriMotion模型实现了驱动音频到3DMM表达式参数的轻量级提取,通过MC2DP模型模型实现了PNCC到残余运动差分平面的高效提取,基于三种模型配合实现了音频驱动单张图像的、基于3D重建的、具有明确三维结构表示的、one‑shot无需训练的2D图片数字人说话人脸生成。

    一种提高大模型私人助理上下文能力的方法

    公开(公告)号:CN118607639A

    公开(公告)日:2024-09-06

    申请号:CN202410654912.4

    申请日:2024-05-24

    IPC分类号: G06N5/04 G06N3/084 G06N3/0455

    摘要: 本发明涉及语言处理及深度学习技术领域,具体涉及一种提高大模型私人助理上下文能力的方法,包括以下步骤:S1、建立基于Transformer模型的优化计算模型;在Transformer模型中引入动态路由机制和残差路径,通过动态路由机制动态选择需要进行计算的tokens进入计算路径,不需要进行计算的tokens进入残差路径;S2、对建立的计算模型进行训练和优化;S3、将训练和优化好的模型用于大模型私人助理的长序列处理。本发明通过在Transformer模型中引入动态计算分配机制,减少不必要的计算资源消耗,并提高模型处理长上下文的效率。

    滑轨屏2D数字人生成方法及系统
    6.
    发明公开

    公开(公告)号:CN118587333A

    公开(公告)日:2024-09-03

    申请号:CN202410649219.8

    申请日:2024-05-24

    IPC分类号: G06T13/40 G06T13/80 G06N5/04

    摘要: 本发明涉及人体姿态估计技术领域,具体提供一种滑轨屏2D数字人生成方法及系统,包括:获取包含人体不同运动状态的原始视频,并读取原始视频的每一图像帧;利用预先训练好的人体姿态估计网络从提取图像帧的特征点坐标,基于特征点坐标生成重心点坐标和人体尺寸;基于图像帧的重心点坐标和人体尺寸,生成不同运动状态对应的常数重心点坐标和常数人体尺寸;利用不同运动状态对应的平均重心点坐标和平均人体尺寸对预先生成的初步处理视频进行重心位置和尺寸优化调整,得到全时域的预推理视频;基于预推理视频与预先存储的驱动音频生成数字人。本发明使数字人在滑轨屏中的人物区域的位置始终恒定,人物的运动过程更加自然。

    数字人视频时长扩展方法、系统、终端及存储介质

    公开(公告)号:CN118573949A

    公开(公告)日:2024-08-30

    申请号:CN202410649220.0

    申请日:2024-05-24

    摘要: 本发明涉及数字人技术领域,具体提供一种数字人视频时长扩展方法、系统、终端及存储介质,包括:采集原始视频和原声音频;对原始视频进行预处理,并对预处理后的原始视频进行切片处理,得到静止讲解视频片段和走动肢体动作视频;将预先存储的讲解内容文本和原声音频输入声音克隆模型,得到讲解音频,利用梅尔频谱提取函数基于讲解音频获取目标视频帧数目;基于静止讲解视频片段的正倒序参数和截断点参数将相应的静止讲解视频片段的总帧数扩展至目标视频帧数目,得到静止讲解视频;将静止讲解视频与讲解音频和走动肢体动作视频顺序拼接为全量滑轨屏视频。本发明可实现任意演绎内容的制作,成本低且易扩展。

    一种数字人稳定头部姿势生成的方法、装置及介质

    公开(公告)号:CN118429869A

    公开(公告)日:2024-08-02

    申请号:CN202410896101.5

    申请日:2024-07-05

    摘要: 本发明涉及人工智能领域,具体是一种数字人稳定头部姿势生成的方法、装置及介质。本发明采用四阶段由粗到细的3DMM重建方法实现了稳定的数字人头部同步。通过稠密的面部和头部关键点检测获得稠密的监督信号,并关注对头部姿势更具影响力的关键点,去除干扰点,以支撑数字人3DMM和头部联合姿态的高精度计算;通过平滑方法平滑视频中每帧内人脸和头部关键点在长时序上存在的信号抖动,更加契合真人头部运动的自然度和连续性;通过深度估计获得2D空间关键点在3D空间内的对应坐标,使用在2D和3D空间中同时具有坐标值标记的关键点进行3D监督,以克服仅在2D空间内使用投影关键点和跟踪关键点进行监督带来的弱监督性。