-
公开(公告)号:CN113299312B
公开(公告)日:2023-04-28
申请号:CN202110560359.4
申请日:2021-05-21
申请人: 北京市商汤科技开发有限公司
摘要: 本申请提出一种图像生成方法、装置、设备以及存储介质。其中,所述方法可以包括:接收音频数据,提取所述音频数据包括的音频序列对应的文本特征。所述文本特征表征对应音频序列的文本内容。基于所述音频序列对应的文本特征,进行面部特征映射,得到与所述音频序列对应的面部特征。所述面部特征表征所述音频序列对应的发音动作。根据所述音频序列对应的面部特征以及接收的人脸图像,生成与所述音频序列对应的发音人脸图像。
-
公开(公告)号:CN113314104B
公开(公告)日:2023-06-20
申请号:CN202110604874.8
申请日:2021-05-31
申请人: 北京市商汤科技开发有限公司
IPC分类号: G10L15/02 , G10L15/06 , G10L15/22 , G10L13/02 , G10L13/08 , G10L13/10 , G10L21/10 , G10L25/24
摘要: 公开了一种交互对象驱动和音素处理方法、装置、设备以及存储介质,所述交互对象驱动方法包括:获取交互对象的声音驱动数据的声学特征;利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;根据所述姿态参数值控制所述交互对象的姿态。
-
公开(公告)号:CN113314104A
公开(公告)日:2021-08-27
申请号:CN202110604874.8
申请日:2021-05-31
申请人: 北京市商汤科技开发有限公司
IPC分类号: G10L15/02 , G10L15/06 , G10L15/22 , G10L13/02 , G10L13/08 , G10L13/10 , G10L21/10 , G10L25/24
摘要: 公开了一种交互对象驱动和音素处理方法、装置、设备以及存储介质,所述交互对象驱动方法包括:获取交互对象的声音驱动数据的声学特征;利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;根据所述姿态参数值控制所述交互对象的姿态。
-
公开(公告)号:CN113299312A
公开(公告)日:2021-08-24
申请号:CN202110560359.4
申请日:2021-05-21
申请人: 北京市商汤科技开发有限公司
摘要: 本申请提出一种图像生成方法、装置、设备以及存储介质。其中,所述方法可以包括:接收音频数据,提取所述音频数据包括的音频序列对应的文本特征。所述文本特征表征对应音频序列的文本内容。基于所述音频序列对应的文本特征,进行面部特征映射,得到与所述音频序列对应的面部特征。所述面部特征表征所述音频序列对应的发音动作。根据所述音频序列对应的面部特征以及接收的人脸图像,生成与所述音频序列对应的发音人脸图像。
-
-
-