使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用
Abstract:
本发明公开了使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用,检测方法包括:S01、搭建基于TimeSformer的无卷积目标检测神经网络框架,导入训练视频形成训练样本,对其进行分块和线性嵌入,再通过TimeSformer分离的时间‑空间注意力方式进行编码和解码进行特征提取,最后再经过预测神经网络生成目标检测结果;S02、通过自监督的预训练方法,在经分块处理后的训练样本中选择目标块,将训练目标变成从原始视频图像寻找该目标块进行神经网络的预训练,形成初步检测神经网络;S03、通过有监督的调优训练方法,将现有视频作为调优训练样本,导入初步检测神经网络进行调优训练;S04、将训练获得的检测神经网络用于视频中进行目标检测,本方案计算资源占用低、实施可靠。
Patent Agency Ranking
0/0