一种支持多模态输入的3D姿态生成与编辑的方法

    公开(公告)号:CN117808927A

    公开(公告)日:2024-04-02

    申请号:CN202311653799.X

    申请日:2023-12-05

    申请人: 浙江大学

    摘要: 本发明公开了一种支持多模态输入的3D姿态生成与编辑的方法,该方法是利用多头向量自编码器结构和全局‑局部特征融合结构,将人体姿态压缩进入表达力丰富且容易进行多模态融合的隐空间;在多头向量自编码器结构中将特征编码为离散向量,在全局‑局部特征融合结构中解耦了多个人体部位,同时通过一个全局特征对局部特征进行约束。基于这两个构架,构建了一套高自由度、高正确性、高可控性的显式人体姿态先验模型以及配套的多模态整合模型。本发明解决了人体姿态数据难以拆分和编码成表达能力丰富的离散向量的挑战,能够高效率、高质量地进行人体姿态编辑并赋能各类围绕人的AIGC场景,包括对虚拟数字人的驱动以及更高可控性的图片生成。

    一种基于文本输入的3D姿态生成与编辑的方法

    公开(公告)号:CN118172491A

    公开(公告)日:2024-06-11

    申请号:CN202410435218.3

    申请日:2024-04-11

    申请人: 浙江大学

    摘要: 本发明公开了一种基于文本输入的3D姿态生成与编辑的方法,该方法通过构建一个不同范式的端到端模型,利用前端大型语言模型将抽象语言提示转换为具体的中间表征(输入后端;后端优化处理中间表征由量化离散人体姿态先验及一种创新的量化离散隐空间优化器组成,以在人体姿态先验隐空间中以一种鲁棒的方式搜索最符合的姿态;借助于大语言模型广泛的知识,以及后端的鲁棒性,这克服了传统端到端模型面临的文本输入理解能力缺陷和泛化能力缺陷,显著改善了姿态生成这一基础且复杂任务的效率以及操作门槛。同时,还实现了基于语言的手势、表情生成和编辑,填补了人体姿态生成模型在表情和手势上的空缺,大大增强了生成和编辑结果的真实性和生动性。