基于时空增强三维注意力重参数化的视频分类方法及装置
摘要:
本发明公开了基于时空增强三维注意力重参数化的视频分类方法及装置,将待分类视频的各视频帧在空间上均匀划分为不重叠的块,将各块经过拉伸、线性映射和叠加位置嵌入向量,得到第一视频特征;将第一视频特征经过Transformer网络进行处理,得到第二视频特征;每层网络均包含时空增强三维注意力模块和多层感知机;时空增强三维注意力模块在训练时包含三维注意力、空间注意力和时间注意力三个分支,自适应地增强具有时空关联的令牌之间的依赖关系,推理时计算等价地退化为三维注意力操作,以降低推理开销;将第二视频特征中的类别令牌利用全连接层进行分类,得到各视频帧的分类结果,再经过时域平均池化操作,得到视频的类别预测结果。
0/0