-
公开(公告)号:CN118869908A
公开(公告)日:2024-10-29
申请号:CN202410835587.1
申请日:2024-06-26
申请人: 天津大学 , 北京酷讯科技有限公司
IPC分类号: H04N5/265 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08 , H04N21/44 , H04N21/439 , H04N5/278 , G10L13/02
摘要: 本发明公开了一种自动化相册幻灯片视频合成方法及装置,方法包括:使用图像美学评估模型对用户输入的图片进行美学质量评分,根据模型的评分结果,对图片进行排序和筛选,选择最佳的图片;利用图像理解大模型对最佳的图片进行内容分析,使用自然语言处理大模型自动生成与图片内容匹配的文案;将生成的文案转化为语音,使用语音合成生成配有时间戳的语音文件,输出格式包含时间戳的句子或短语;使用图文匹配进行分析,确保所选文案与图片内容之间的关键词匹配,应用去重策略;使用视频编辑框架,整合筛选后的图像、合成的文案、语音及音乐,自动编辑并输出最终的幻灯片视频。装置包括:处理器和存储器。
-
公开(公告)号:CN115994990A
公开(公告)日:2023-04-21
申请号:CN202211533211.2
申请日:2022-12-02
申请人: 天津大学
摘要: 本发明公开了一种基于文本信息引导的三维模型自动建模方法,包括:在文本标注数据集上进行数据预处理,利用知识图谱技术通过定义语义标签实体、文本描述实体、三维模型实体以及其之间关联来构建文本—三维模型知识图谱;利用所构建的知识图谱根据用户输入的文本内容检索相关三维模型和语义标签作为视觉与语义两种角度的先验知识;构建文本—三维模型生成网络,构建基于多层Transformer网络的特征融合网络,将跨模态的先验知识与输入文本信息进行融合;构建基于隐式场的三维模型生成网络,基于空间坐标和融合先验信息的文本特征预测三维模型的形状和颜色信息。本发明的方法可以使用户直接利用文本描述自动建成具备良好几何和颜色细节的三维模型。
-