-
公开(公告)号:CN115082840B
公开(公告)日:2022-11-15
申请号:CN202210980779.2
申请日:2022-08-16
申请人: 之江实验室
摘要: 本发明公开了基于数据组合和通道相关性的动作视频分类方法和装置,包括以下步骤:步骤S1:从输入视频中提取连续采样视频帧;步骤S2:利用数据组合操作构建融合视频帧;步骤S3:利用所提出的网络模型提取视频深度特征;步骤S4:利用视频深度特征计算通道相关性矩阵;步骤S5:将通道相关性矩阵作用于视频深度特征并进行特征融合,得到融合后特征;步骤S6:所述融合后特征经过全连接层进行分类,再通过均匀融合得到输入视频的分类结果。本发明通过数据组合操作将相邻视频帧信息进行融合,从而巧妙利用视频中的2D空域卷积实现了短时运动建模。此外本发明通过计算各特征通道之间的相关性,实现了各通道之间的信息交互,达到了更好地建模效果。
-
公开(公告)号:CN114494791A
公开(公告)日:2022-05-13
申请号:CN202210353591.5
申请日:2022-04-06
申请人: 之江实验室
IPC分类号: G06V10/764 , G06V10/774 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明提出了一种基于注意力选择的transformer运算精简方法,在transformer网络的每层用注意力机制获取关联矩阵,对关联矩阵的每一行计算信息熵,获得各个局部标识对于网络任务的重要性程度,将局部标识划分为重要标识和不重要标识,每间隔一定网络层,计算不重要标识的特征参数和,将不重要标识的特征参数值加到重要标识上,删除不重要标识,仅重要标识进入网络下一层。网络训练过程中,构建交叉熵损失函数和重要性损失函数,重要性损失函数用于降低重要标识与不重要标识的关联。本发明方法从影响网络任务的判别性区域的选择角度出发,实现方法简单,有效减少网络计算量的同时,对模型精度影响很小,且可以与已知网络压缩方法同时使用,共同实现计算量压缩。
-
公开(公告)号:CN117292209B
公开(公告)日:2024-04-05
申请号:CN202311585233.8
申请日:2023-11-27
申请人: 之江实验室
IPC分类号: G06V10/764 , G06V20/40
摘要: 本发明公开了基于时空增强三维注意力重参数化的视频分类方法及装置,将待分类视频的各视频帧在空间上均匀划分为不重叠的块,将各块经过拉伸、线性映射和叠加位置嵌入向量,得到第一视频特征;将第一视频特征经过Transformer网络进行处理,得到第二视频特征;每层网络均包含时空增强三维注意力模块和多层感知机;时空增强三维注意力模块在训练时包含三维注意力、空间注意力和时间注意力三个分支,自适应地增强具有时空关联的令牌之间的依赖关系,推理时计算等价地退化为三维注意力操作,以降低推理开销;将第二视频特征中的类别令牌利用全连接层进行分类,得到各视频帧的分类结果,再经过时域平均池化操作,得到视频的类别预测结果。
-
公开(公告)号:CN115082840A
公开(公告)日:2022-09-20
申请号:CN202210980779.2
申请日:2022-08-16
申请人: 之江实验室
摘要: 本发明公开了基于数据组合和通道相关性的动作视频分类方法和装置,包括以下步骤:步骤S1:从输入视频中提取连续采样视频帧;步骤S2:利用数据组合操作构建融合视频帧;步骤S3:利用所提出的网络模型提取视频深度特征;步骤S4:利用视频深度特征计算通道相关性矩阵;步骤S5:将通道相关性矩阵作用于视频深度特征并进行特征融合,得到融合后特征;步骤S6:所述融合后特征经过全连接层进行分类,再通过均匀融合得到输入视频的分类结果。本发明通过数据组合操作将相邻视频帧信息进行融合,从而巧妙利用视频中的2D空域卷积实现了短时运动建模。此外本发明通过计算各特征通道之间的相关性,实现了各通道之间的信息交互,达到了更好地建模效果。
-
公开(公告)号:CN114494981B
公开(公告)日:2022-08-05
申请号:CN202210357179.0
申请日:2022-04-07
申请人: 之江实验室
摘要: 本发明公开了一种基于多层次运动建模的动作视频分类方法及系统,对段内和段间的运动信息进行多层次综合建模,其包含两个神经网络分支:段间分支对各视频段中采样得到的视频帧进行处理,用于提取前景目标的表观信息和段间运动信息;段内分支对各视频段中相邻视频帧的差值进行处理,用于提取前景目标的段内运动信息。段内分支所提取的帧差特征被用来对段间分支特征进行按通道加权,最后两个分支的卷积特征融合起来并共同输入到分类器中进行视频分类。本发明实现方法简便,手段灵活,在动作视频数据集上取得了显著的分类效果提升。
-
公开(公告)号:CN117253177B
公开(公告)日:2024-04-05
申请号:CN202311545738.1
申请日:2023-11-20
申请人: 之江实验室
IPC分类号: G06V20/40 , G06V10/82 , G06N3/0455 , G06N3/08
摘要: 本发明公开了一种动作视频分类方法、装置及介质,该方法将输入视频在空间上均匀分块,即令牌token,各块拉伸后得到的向量经过线性映射,得到第一视频特征;将第一视频特征输入编码模块中,得到第二视频特征;编码模块由若干个编码器组成;每个编码器由混合注意力及通道转移模块和多层感知机组成;混合注意力及通道转移模块用于进行混合注意力操作和通道转移操作;混合注意力包括空间注意力、时间注意力和随机注意力;第二视频特征经过空间池化操作后,送入分类器中进行分类,并得到各视频帧的分类结果;然后再使用时域均匀聚合操作,得到输入视频的分类结果。本发明的混合注意力有效降低了注意力机制的运算开销,时间复杂度低。
-
公开(公告)号:CN117292209A
公开(公告)日:2023-12-26
申请号:CN202311585233.8
申请日:2023-11-27
申请人: 之江实验室
IPC分类号: G06V10/764 , G06V20/40
摘要: 本发明公开了基于时空增强三维注意力重参数化的视频分类方法及装置,将待分类视频的各视频帧在空间上均匀划分为不重叠的块,将各块经过拉伸、线性映射和叠加位置嵌入向量,得到第一视频特征;将第一视频特征经过Transformer网络进行处理,得到第二视频特征;每层网络均包含时空增强三维注意力模块和多层感知机;时空增强三维注意力模块在训练时包含三维注意力、空间注意力和时间注意力三个分支,自适应地增强具有时空关联的令牌之间的依赖关系,推理时计算等价地退化为三维注意力操作,以降低推理开销;将第二视频特征中的类别令牌利用全连接层进行分类,得到各视频帧的分类结果,再经过时域平均池化操作,得到视频的类别预测结果。
-
公开(公告)号:CN116363372B
公开(公告)日:2023-08-15
申请号:CN202310636751.1
申请日:2023-06-01
申请人: 之江实验室
IPC分类号: G06V10/26 , G06V10/764 , G06N3/0464 , G06N3/0895
摘要: 本申请涉及一种弱监督语义分割方法、装置、设备和存储介质,通过根据图像的编码特征生成类别概率,通过类别概率与类别标签构建第一损失函数;通过编码特征以及图像像素的颜色距离与空间距离,获得图像的不确定性分布数据与伪标签,根据不确定性分布数据构建第二损失函数;根据图像中对应于不同伪标签的多个像素集合,构建第三损失函数。根据第一损失函数、第二损失函数以及第三损失函数,生成总损失,根据总损失调节分类网络模型与分割网络模型的模型参数,并根据分类结果得到语义分割结果,针对伪标签的不确定性问题进行了优化,从而解决了图像语义分割的准确率较低的问题,提高了图像语义分割的准确率。
-
公开(公告)号:CN115063731B
公开(公告)日:2022-11-11
申请号:CN202210980577.8
申请日:2022-08-16
申请人: 之江实验室
IPC分类号: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于两阶段运动建模和注意力的动作视频分类方法和系统,包括以下步骤:步骤S1:构建采样帧输入至主干网络;步骤S2:第一阶段段内运动信息建模,输出包含短时运动信息的视频卷积特征;步骤S3:第二阶段段间运动信息建模,输出融合了短时运动信息和长时运动信息的空间块注意力视频卷积特征;步骤S4:经过全连接层后得到各视频段的分类结果并融合,训练网络。本发明利用卷积神经网络的多层次结构,在网络的较低层和较高层分别提取段内运动信息和段间运动信息,达到分阶段运动综合建模的目的。此外,本发明计算视频卷积特征各空间块之间的注意力关系,使得网络同时具备了卷积操作和注意力机制的短距离和长距离建模能力。
-
公开(公告)号:CN116152575A
公开(公告)日:2023-05-23
申请号:CN202310410038.5
申请日:2023-04-18
申请人: 之江实验室
IPC分类号: G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0895
摘要: 本发明公开了一种基于类激活采样引导的弱监督目标定位方法、装置和介质,该方法首先构建训练集和测试集以及分类网络和交叉熵损失函数,实现分类网络的初步训练;然后获取原始图像、原始编码特征和原始类别概率,并根据原始编码特征生成类激活矩阵;再构建权重采样矩阵,并进行像素重采样,得到重采样图像和重采样特征以及重采样编码特征和重采样类别概率;然后构建一致性损失函数和重采样的交叉熵损失函数并进行训练,以获取最终训练好的分类网络;最后针对类激活矩阵构建阈值,以获取目标定位。本发明内容新颖,有效挖掘容易被忽略的目标次判别性区域,目标定位能力更优,能够解决仅包含图像属性分类标签情况下的弱监督目标定位问题。
-
-
-
-
-
-
-
-
-