基于时空增强三维注意力重参数化的视频分类方法及装置

Invention Publication

CN117292209A 基于时空增强三维注意力重参数化的视频分类方法及装置审中-实审

Please log in to see more content

Patent Title: 基于时空增强三维注意力重参数化的视频分类方法及装置
Application No.: CN202311585233.8

Application Date: 2023-11-27
Publication No.: CN117292209A

Publication Date: 2023-12-26
Inventor: 卢修生 , 苏慧 , 胡丹青 , 郭蕊 , 宋明黎
Applicant: 之江实验室
Applicant Address: 浙江省杭州市余杭区中泰街道科创大道之江实验室
Assignee: 之江实验室
Current Assignee: 之江实验室
Current Assignee Address: 浙江省杭州市余杭区中泰街道科创大道之江实验室
Agency: 杭州求是专利事务所有限公司
Agent 邱启旺
Main IPC: G06V10/764
IPC: G06V10/764 ; G06V20/40

Abstract:

本发明公开了基于时空增强三维注意力重参数化的视频分类方法及装置，将待分类视频的各视频帧在空间上均匀划分为不重叠的块，将各块经过拉伸、线性映射和叠加位置嵌入向量，得到第一视频特征；将第一视频特征经过Transformer网络进行处理，得到第二视频特征；每层网络均包含时空增强三维注意力模块和多层感知机；时空增强三维注意力模块在训练时包含三维注意力、空间注意力和时间注意力三个分支，自适应地增强具有时空关联的令牌之间的依赖关系，推理时计算等价地退化为三维注意力操作，以降低推理开销；将第二视频特征中的类别令牌利用全连接层进行分类，得到各视频帧的分类结果，再经过时域平均池化操作，得到视频的类别预测结果。

Public/Granted literature

CN117292209B 基于时空增强三维注意力重参数化的视频分类方法及装置 Public/Granted day:2024-04-05

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V10/00	图像或视频识别或理解的安排（图像或视频中的字符识别 G06V30/10）
G06V10/70	.使用模式识别或机器学习（光学模式识别或电子计算 G06V10/88）
G06V10/764	..使用分类，例如视频对象