一种视频描述生成方法、装置、计算机设备及存储介质

    公开(公告)号:CN118283380A

    公开(公告)日:2024-07-02

    申请号:CN202410329443.9

    申请日:2024-03-21

    摘要: 本发明涉及一种视频描述生成方法、装置、计算机设备及存储介质,该方法包括:从目标视频中采样得到视频帧序列;从视频帧序列中提取出多个视觉特征以及语义概念特征;根据多个视觉特征和语义概念特征进行多特征融合编码,得到视频编码特征;基于一组可学习的事件查询以及视频编码特征,使用解码器进行解码,得到多个事件建议表示;利用多个子任务头对多个事件建议表示进行并行解码,得到事件建议集合;从事件建议集合中筛选出目标事件建议作为目标视频的描述结果。通过本申请,解决了相关技术中的密集视频描述方法缺乏对语义概念的关注与利用导致的密集视频描述中事件定位以及事件描述不准确的问题,实现了提升密集视频描述准确度的效果。