-
公开(公告)号:CN118828050A
公开(公告)日:2024-10-22
申请号:CN202410828992.0
申请日:2024-06-25
申请人: 上海人工智能创新中心
IPC分类号: H04N21/233 , G06N3/0464 , G06N3/08 , H04N21/234 , H04N21/439 , H04N21/44 , H04N21/242 , H04N21/43 , H04N21/8547 , G10L25/48
摘要: 本发明涉及一种无声视频拟音方法、电子设备、存储介质,方法利用注入处理后的Unet网络生成待拟音的无声视频的视频拟音,其中,注入处理包括如下步骤:针对所述无声视频和预先获取的提示词,分别进行特征提取得到视觉编码和文本编码;基于平行交叉注意力机制,将所述视觉编码和文本编码注入预先构建的Unet网络的交叉注意力层;针对所述无声视频,通过事件发生检测得到事件发生信号;通过逐层残差添加的方式,将所述事件发生信号注入所述Unet网络的解码器层。与现有技术相比,本发明具有改善音画同步、实现文本控制的拟音生成等优点。
-
公开(公告)号:CN118870056A
公开(公告)日:2024-10-29
申请号:CN202410845271.0
申请日:2024-06-27
申请人: 上海人工智能创新中心
IPC分类号: H04N21/2343 , H04N21/4402 , H04N19/20 , H04N13/128 , G06F40/126 , G06N3/045 , G06N3/0464 , G06N3/08 , H04N13/00
摘要: 本发明涉及一种基于带预热单向注意力时序建模的视频流转录方法、装置及存储介质,其中方法包括:获取文本输入,并对文本输入进行编码得到文本编码;获取输入视频流;对视频流中的每一帧进行编码得到视频编码队列;基于输入的视频流,提取深度信息,得到深度图序列,并对每一张深度图进行编码得到深度编码队列;将视频编码和深度编码叠加后,输入至训练好的生成模型中,在文本编码的作用下,生成去噪输出队列;对去噪输出队列进行解码得到转录视频。与现有技术相比,本发明通过设计深度识别,并将视频编码和深度编码叠加作为模型输入,从而可以使得视频流转录模型的转录结果可以更好得与原视频保持空间结构一致性。
-
公开(公告)号:CN117911584A
公开(公告)日:2024-04-19
申请号:CN202311759693.8
申请日:2023-12-20
申请人: 上海人工智能创新中心
摘要: 本发明涉及一种基于文本提示词和图像驱动的内容生成方法、设备、介质,一方面,本发明对图像驱动任务构建了一个条件编码模块,该模块能够兼容现有的文本生成图像、文本生成视频模型,以条件帧和帧间一致性为输入,能更好编码和保留条件帧的细节;另一方面,本发明对训练数据集的扩充,除了条件帧、目标条件帧,该数据集还包含了条件帧和目标条件帧的帧间一致性,该发明能够有效提高生成视频的稳定性和可控性;最后,针对图像驱动模型的训练策略,将动作过快或静止的数据映射到特定的输入区间,通过在推理时回避该输入区间以获得高质量的生成结果,同时,训练结束后,可以通过调整输入的帧间一致性数值来控制生成视频中动效的剧烈程度。
-
-