基于多模态提示协同的视觉巡检多任务学习方法
摘要:
本发明公开了基于多模态提示协同的视觉巡检多任务学习方法,以多模态提示协同多任务学习网络作为视觉‑语言模型实现视觉巡检多任务学习,所述多模态提示协同多任务学习网络包括语言提示编码器和视觉编码器,语言提示编码器包括并行的冻结语言编码器和语言编码器;冻结语言编码器,用于确保语言编码器的调整不大于阈值限度;语言编码器与视觉编码器通过耦合函数计算二者特征的余弦相似性衡量两个任务的相似程度,以最大限度地提高总相似性高的任务组的视觉和语言表征的一致性,实现视觉巡检多任务学习的高效联合训练。本发明提升视觉巡检多任务模型的调整效果,保证视觉巡检多任务学习方法的针对性和泛化性。
0/0