-
公开(公告)号:CN118918257A
公开(公告)日:2024-11-08
申请号:CN202410979924.4
申请日:2024-07-19
Applicant: 清华大学 , 北京达佳互联信息技术有限公司
Abstract: 本公开关于一种三维模型方法、装置、电子设备及存储介质,该方法包括:基于文本提示对应的参考图像和多个预设视角的视角信息的引导进行多视角图像生成处理,在多视角图像生成处理过程中,基于各预设视角的目标隐特征图生成体密度场和各预设视角的视角增强特征图,基于各视角增强特征图生成各预设视角的视角图像;基于文本提示和各预设视角的视角图像微调预训练图像去噪模型得到目标图像去噪模型;对基于体密度场生成的初始化三维模型的渲染图像添加噪声得到加噪渲染图像,将文本提示和加噪渲染图像输入至目标图像去噪模型进行噪声预测,基于噪声预测的结果调整初始化三维模型以得到目标三维模型。本公开提高了三维模型的收敛速度和质量。
-
公开(公告)号:CN119274533A
公开(公告)日:2025-01-07
申请号:CN202411028162.6
申请日:2024-07-30
Applicant: 清华大学深圳国际研究生院 , 清华大学
IPC: G10L13/08 , G10L13/027 , G06F40/30
Abstract: 一种基于自然语言描述文本的高表现力音频生成方法,包括:S1:利用预训练多语言文本编码器对输入的自然语言描述指令进行编码,提取语义信息;S2:以文本编码表征作为条件,通过自回归模型(AR)依次预测音频的语义单元序列,其表示音频中出现的内容事件信息;S3:以文本编码表征和S2输出的音频语义单元序列作为前缀条件,通过AR预测音频的粗粒度声学单元序列,决定音频整体时长和基本声学信息;S4:利用非自回归模型(NAR)预测音频的细粒度声学单元序列,建模音频细节表现和高频信息;S5:将多层声学单元序列输入声码器,生成高质量的音频波形。该方法直接支持由一句自然语言描述指令来生成音频,并提升生成音频的自然度、表现力和可控性。
-
公开(公告)号:CN118864653B
公开(公告)日:2025-05-06
申请号:CN202411345237.3
申请日:2024-09-25
Applicant: 淘宝(中国)软件有限公司 , 清华大学
Abstract: 本发明公开了一种图像的生成方法和程序产品,涉及大模型技术、图像处理领域。其中,该方法包括:获取待生成图像对应的多个初始控制条件,其中,初始控制条件用于表示待生成图像的属性信息,且用于引导图像生成模型生成待生成图像;组合多个初始控制条件,得到图像生成模型的目标控制条件;基于目标控制条件,确定图像生成模型的注入参数,其中,注入参数用于表征目标控制条件对属性信息的影响程度;利用注入参数和待生成图像的初始提示信息,引导图像生成模型生成待生成图像,其中,初始提示信息用于提示待生成图像在属性信息下的图像内容。本发明解决了图像生成的效果差的技术问题。
-
公开(公告)号:CN119152837A
公开(公告)日:2024-12-17
申请号:CN202411000066.0
申请日:2024-07-24
Applicant: 清华大学
Abstract: 本发明提供一种语音合成方法和装置,涉及语音处理技术领域,方法包括:获取目标图像和说话文稿,并将目标图像和说话文稿输入至预训练的语音合成模型,得到目标合成语音;其中,目标图像包含多个视觉信息,目标合成语音包含多个声学特征,一个视觉信息对应至少一个声学特征;语音合成模型为基于多模态数据集进行训练得到,多模态数据集为对目标数据集进行模态增强得到。通过本发明提供的方法,对现有语音数据集进行模态增强构建多模态数据集,解决数据集稀缺的问题;根据静态图像中的视觉信息与语音音频中的声学特征之间的一一对应关系,基于通过多模态数据集训练得到的语音合成模型,使合成的目标合成语音具有更细粒度的语音风格。
-
公开(公告)号:CN118828181A
公开(公告)日:2024-10-22
申请号:CN202410972126.9
申请日:2024-07-19
Applicant: 清华大学
Abstract: 本发明涉及舞蹈摄影技术领域,提供一种基于关键帧的舞蹈场景摄像机运动生成方法及装置,其中的方法包括:根据给定的音乐和舞蹈,确定时间轴上的摄像机关键帧;根据给定的音乐和舞蹈,以及摄像机运动历史记录,生成所述摄像机关键帧对应的关键帧摄像机姿态;根据给定的音乐和舞蹈,以及摄像机运动历史记录和关键帧摄像机姿态,预测两个相邻摄像机关键帧之间的非关键帧对应的补间函数值;根据补间函数值和关键帧摄像机姿态,生成目标摄像机运动。该方法能够实现更平滑的相机曲线和更稳定的舞蹈场景摄像机拍摄,进而显著改善用户对舞蹈的观看体验感,该方法还具备关键帧时间可控性和关键帧姿态可控性,从而能够提供更灵活和更精细的使用体验。
-
公开(公告)号:CN118864653A
公开(公告)日:2024-10-29
申请号:CN202411345237.3
申请日:2024-09-25
Applicant: 淘宝(中国)软件有限公司 , 清华大学
Abstract: 本发明公开了一种图像的生成方法和程序产品,涉及大模型技术、图像处理领域。其中,该方法包括:获取待生成图像对应的多个初始控制条件,其中,初始控制条件用于表示待生成图像的属性信息,且用于引导图像生成模型生成待生成图像;组合多个初始控制条件,得到图像生成模型的目标控制条件;基于目标控制条件,确定图像生成模型的注入参数,其中,注入参数用于表征目标控制条件对属性信息的影响程度;利用注入参数和待生成图像的初始提示信息,引导图像生成模型生成待生成图像,其中,初始提示信息用于提示待生成图像在属性信息下的图像内容。本发明解决了图像生成的效果差的技术问题。
-
公开(公告)号:CN118571229B
公开(公告)日:2024-10-29
申请号:CN202411037101.6
申请日:2024-07-31
Applicant: 清华大学
Abstract: 本发明提供一种用于语音特征描述的语音标注方法和装置,涉及语音处理技术领域,方法包括:获取原始音频数据;将所述原始音频数据输入至预训练的语音风格识别模型中,得到所述原始音频数据的语音风格属性;其中,所述语音风格识别模型包括信号处理子模型、说话人身份识别子模型、情感标注子模型和韵律检测子模型;将所述语音风格属性和语音识别文本输入至预训练的自然语言模型中,得到所述原始音频数据对应的自然语言描述文本;其中,所述语音识别文本为:基于所述原始音频数据进行语音识别得到;所述自然语言描述文本为:对所述原始音频数据进行语音特征描述的文本。通过本发明提供的方法,形成针对原始音频数据详细和个性化的自然语言描述文本。
-
公开(公告)号:CN118571229A
公开(公告)日:2024-08-30
申请号:CN202411037101.6
申请日:2024-07-31
Applicant: 清华大学
Abstract: 本发明提供一种用于语音特征描述的语音标注方法和装置,涉及语音处理技术领域,方法包括:获取原始音频数据;将所述原始音频数据输入至预训练的语音风格识别模型中,得到所述原始音频数据的语音风格属性;其中,所述语音风格识别模型包括信号处理子模型、说话人身份识别子模型、情感标注子模型和韵律检测子模型;将所述语音风格属性和语音识别文本输入至预训练的自然语言模型中,得到所述原始音频数据对应的自然语言描述文本;其中,所述语音识别文本为:基于所述原始音频数据进行语音识别得到;所述自然语言描述文本为:对所述原始音频数据进行语音特征描述的文本。通过本发明提供的方法,形成针对原始音频数据详细和个性化的自然语言描述文本。
-
-
-
-
-
-
-