基于带预热单向注意力时序建模的视频流转录方法、装置及存储介质

    公开(公告)号:CN118870056A

    公开(公告)日:2024-10-29

    申请号:CN202410845271.0

    申请日:2024-06-27

    摘要: 本发明涉及一种基于带预热单向注意力时序建模的视频流转录方法、装置及存储介质,其中方法包括:获取文本输入,并对文本输入进行编码得到文本编码;获取输入视频流;对视频流中的每一帧进行编码得到视频编码队列;基于输入的视频流,提取深度信息,得到深度图序列,并对每一张深度图进行编码得到深度编码队列;将视频编码和深度编码叠加后,输入至训练好的生成模型中,在文本编码的作用下,生成去噪输出队列;对去噪输出队列进行解码得到转录视频。与现有技术相比,本发明通过设计深度识别,并将视频编码和深度编码叠加作为模型输入,从而可以使得视频流转录模型的转录结果可以更好得与原视频保持空间结构一致性。

    基于文本提示词和图像驱动的内容生成方法、设备、介质

    公开(公告)号:CN117911584A

    公开(公告)日:2024-04-19

    申请号:CN202311759693.8

    申请日:2023-12-20

    摘要: 本发明涉及一种基于文本提示词和图像驱动的内容生成方法、设备、介质,一方面,本发明对图像驱动任务构建了一个条件编码模块,该模块能够兼容现有的文本生成图像、文本生成视频模型,以条件帧和帧间一致性为输入,能更好编码和保留条件帧的细节;另一方面,本发明对训练数据集的扩充,除了条件帧、目标条件帧,该数据集还包含了条件帧和目标条件帧的帧间一致性,该发明能够有效提高生成视频的稳定性和可控性;最后,针对图像驱动模型的训练策略,将动作过快或静止的数据映射到特定的输入区间,通过在推理时回避该输入区间以获得高质量的生成结果,同时,训练结束后,可以通过调整输入的帧间一致性数值来控制生成视频中动效的剧烈程度。