-
公开(公告)号:CN116030387A
公开(公告)日:2023-04-28
申请号:CN202211721668.6
申请日:2022-12-30
申请人: 三星(中国)半导体有限公司 , 三星电子株式会社 , 西安交通大学
摘要: 提供了一种从视频中识别对象的方法和装置,其中,所述方法包括:从视频中提取多个图像帧;利用视觉变换Transformer提取所述多个图像帧中的每个图像帧的初始特征图;利用级联的至少一层注意力特征融合网络,对所述每个图像帧的初始特征图进行融合以获得所述多个图像帧的融合特征图,其中,每层注意力特征融合网络包括至少一个注意力特征融合模块,其中,每个注意力特征融合模块至少包括级联的多头自注意力模块和交叉注意力模块,其中,最后一层注意力特征融合网络仅包括一个注意力特征融合模块;基于所述多个图像帧的融合特征图,识别所述视频中的对象。