专利检索 ap:("北京交通大学" OR "清华大学") AND inv:"孙志尧" 第 1 页

1.

发明公开
情感可控脸部动画生成方法、装置、设备及介质审中-实审

公开(公告)号：CN118691725A

公开(公告)日：2024-09-24

申请号：CN202410817860.8

申请日：2024-06-24

申请人： 北京交通大学 , 清华大学

发明人： 温玉辉 , 景丽萍 , 刘永进 , 孙志尧 , 汪意 , 周正忠

IPC分类号： G06T13/40 , G06T17/00 , G06T3/04 , G06N3/0455 , G06N3/0464 , G06N3/08

摘要： 本发明提供一种情感可控脸部动画生成方法、装置、设备及介质，该方法包括：确定目标时间段内的脸部视频和音频，所述脸部视频和所述音频同步采集；根据所述脸部视频和所述音频，确定条件编码，所述条件编码表征脸部视频中情感编码和音频中声音编码的组合关系；根据所述条件编码，确定隐空间编码，所述隐空间编码表征动画场景下的情感编码；根据所述隐空间编码，确定目标时间段内的人脸模型参数；根据所述人脸模型参数和预配置的视角参数，确定动画场景下的脸部视频,能够通过声音和情感生成三维人脸动画，能够更加灵活地控制动画生成结果。

2.

发明授权
说话视频的生成方法、装置、电子设备、介质及产品有权

公开(公告)号：CN114245215B

公开(公告)日：2023-04-07

申请号：CN202111404955.X

申请日：2021-11-24

申请人： 清华大学 , 华为技术有限公司

发明人： 刘永进 , 叶子鹏 , 温玉辉 , 孙志尧 , 常亚

IPC分类号： H04N21/466 , H04N21/81 , G06N3/0464 , G06N3/08 , G06V40/16 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/24 , G10L25/63

摘要： 本发明提供一种说话视频的生成方法、装置、电子设备、介质及产品，本发明提供的说话视频的生成方法、装置、电子设备、介质及产品，通过情绪语音模型可以根据说话音频的音频特征和情绪标签序列获得相应的人脸模型序列，并通过神经渲染模型根据人脸模型序列、情绪标签序列以及人脸背景序列获得视频帧序列，最后将视频帧序列与说话音频合成即可得到目标人物的说话视频，由于说话视频是基于情绪标签序列获得的，可以直观的表达目标人物的情绪变化，得到的说话视频更加真实。

3.

发明公开
说话视频的生成方法、装置、电子设备、介质及产品有权

公开(公告)号：CN114245215A

公开(公告)日：2022-03-25

申请号：CN202111404955.X

申请日：2021-11-24

申请人： 清华大学 , 华为技术有限公司

发明人： 刘永进 , 叶子鹏 , 温玉辉 , 孙志尧 , 常亚

IPC分类号： H04N21/466 , H04N21/81 , G06N3/04 , G06N3/08 , G06V40/16 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/24 , G10L25/63

摘要： 本发明提供一种说话视频的生成方法、装置、电子设备、介质及产品，本发明提供的说话视频的生成方法、装置、电子设备、介质及产品，通过情绪语音模型可以根据说话音频的音频特征和情绪标签序列获得相应的人脸模型序列，并通过神经渲染模型根据人脸模型序列、情绪标签序列以及人脸背景序列获得视频帧序列，最后将视频帧序列与说话音频合成即可得到目标人物的说话视频，由于说话视频是基于情绪标签序列获得的，可以直观的表达目标人物的情绪变化，得到的说话视频更加真实。