-
公开(公告)号:CN117079184A
公开(公告)日:2023-11-17
申请号:CN202311048600.0
申请日:2023-08-21
申请人: 重庆理工大学
摘要: 本发明提供一种基于外部注意力和特征增强的时序动作定位方法,包括利用预先训练好的通用动作分类网络提取未经剪辑视频的视频特征,将提取的视频特征输入到配备外部注意力模块的Transformer层提取到多尺度特征金字塔,利用多尺度特征增强模块对多尺度特征金字塔进行不同尺度特征之间的特征增强和不同尺度特征的特征融合,将融合和增后的特征输入到包含分类和回归组件的检测头,得到预测的动作类别标签和动作起止边界。本方法Transformer层中的外部注意力模块使用两个线性层来取代自注意力,因此外部注意力具有线性复杂性,降低了整个模型的算法复杂度和参数量,同时通过多尺度特征增强模块弥补特征金字塔中各个尺度特征之间的不一致性来提高特征金字塔结构有效性。