使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用

Invention Publication

CN113449643A 使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用审中-实审

Please log in to see more content

Patent Title: 使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用
Application No.: CN202110729378.5

Application Date: 2021-06-29
Publication No.: CN113449643A

Publication Date: 2021-09-28
Inventor: 李勇 , 陈华明 , 方立 , 柳芳震 , 黄燕
Applicant: 福信富通科技股份有限公司
Applicant Address: 福建省福州市鼓楼区工业路611号海峡技术转移中心大楼15-16层
Assignee: 福信富通科技股份有限公司
Current Assignee: 福信富通科技股份有限公司
Current Assignee Address: 福建省福州市鼓楼区工业路611号海峡技术转移中心大楼15-16层
Agency: 厦门原创专利事务所
Agent 吴廷正
Main IPC: G06K9/00
IPC: G06K9/00 ; G06K9/62 ; G06N3/04 ; G06N3/08 ; H04N19/42

Abstract:

本发明公开了使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用，检测方法包括：S01、搭建基于TimeSformer的无卷积目标检测神经网络框架，导入训练视频形成训练样本，对其进行分块和线性嵌入，再通过TimeSformer分离的时间‑空间注意力方式进行编码和解码进行特征提取，最后再经过预测神经网络生成目标检测结果；S02、通过自监督的预训练方法，在经分块处理后的训练样本中选择目标块，将训练目标变成从原始视频图像寻找该目标块进行神经网络的预训练，形成初步检测神经网络；S03、通过有监督的调优训练方法，将现有视频作为调优训练样本，导入初步检测神经网络进行调优训练；S04、将训练获得的检测神经网络用于视频中进行目标检测，本方案计算资源占用低、实施可靠。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06K	图形数据读取（图像或视频识别或理解G06V）；数据的呈现；记录载体；处理记录载体
G06K9/00	识别模式的方法或装置（图形读取或将机械参数模式（例如力或存在）转换为电信号的方法或装置 G06K11/00）（图像或视频识别或理解 G06V）（语音识别 G10L15/00 )