- 专利标题: 基于时空增强三维注意力重参数化的视频分类方法及装置
-
申请号: CN202311585233.8申请日: 2023-11-27
-
公开(公告)号: CN117292209A公开(公告)日: 2023-12-26
- 发明人: 卢修生 , 苏慧 , 胡丹青 , 郭蕊 , 宋明黎
- 申请人: 之江实验室
- 申请人地址: 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 专利权人: 之江实验室
- 当前专利权人: 之江实验室
- 当前专利权人地址: 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 代理机构: 杭州求是专利事务所有限公司
- 代理商 邱启旺
- 主分类号: G06V10/764
- IPC分类号: G06V10/764 ; G06V20/40
摘要:
本发明公开了基于时空增强三维注意力重参数化的视频分类方法及装置,将待分类视频的各视频帧在空间上均匀划分为不重叠的块,将各块经过拉伸、线性映射和叠加位置嵌入向量,得到第一视频特征;将第一视频特征经过Transformer网络进行处理,得到第二视频特征;每层网络均包含时空增强三维注意力模块和多层感知机;时空增强三维注意力模块在训练时包含三维注意力、空间注意力和时间注意力三个分支,自适应地增强具有时空关联的令牌之间的依赖关系,推理时计算等价地退化为三维注意力操作,以降低推理开销;将第二视频特征中的类别令牌利用全连接层进行分类,得到各视频帧的分类结果,再经过时域平均池化操作,得到视频的类别预测结果。
公开/授权文献
- CN117292209B 基于时空增强三维注意力重参数化的视频分类方法及装置 公开/授权日:2024-04-05