一种基于多模态层级Transformer的运动感知自监督RGBT跟踪方法
摘要:
本发明公开了一种基于多模态层级Transformer的运动感知自监督RGBT跟踪方法,先采用ResNet50来提取RGB图像和热红外图像的特征,再使用MHTF模块捕捉通道上两种模态特征之间的远距离依赖关系,对融合得到的特征进行基于卷积的互相关操作,利用基于多头交叉注意力机制的分类增强分数图来辅助实现根据准确的分类,引入MAM模块记录搜索帧特征并提取相应的运动向量,并在网络模型训练期间使用这些向量来强化与当前搜索帧特征的一致性,最小化互相关操作及MAM模块得到的损失,最后将视频帧输入训练好的网络模型进行跟踪得到跟踪结果。本发明方法充分利了用可见光和热红外图像间的互补信息并能发挥自监督学习的优势。
0/0