一种基于场景语言感知引导的多模态无人机目标检测框架

    公开(公告)号:CN119360243A

    公开(公告)日:2025-01-24

    申请号:CN202411395067.X

    申请日:2024-10-08

    Abstract: 本发明属于计算机视觉技术领域,公开了一种基于场景语言感知引导的多模态无人机目标检测框架。首先,将视觉‑语言预训练模型嵌入多模态目标检测框架中,提出了场景语言感知模块,利用视觉‑语言预训练模型为模型提供场景智能感知和理解能力。其次,通过条件参数生成模块根据当前场景和目标特征动态生成融合参数,通过为不同目标定制个性化的融合模式提升模型对场景变化的适应能力。最后,设计了多模态动态解码器,建立了动态对称融合机制,通过动态挖掘多模态数据间的复杂互补关联实现多模态特征融合,并根据当前场景实时调整不同模态的重要性,将DETR的解码机制从单模态扩展到多模态,为多模态无人机目标检测提供了无需先验框的新范式。

    一种基于场景语言感知引导的多模态无人机目标检测框架

    公开(公告)号:CN119360243B

    公开(公告)日:2025-05-02

    申请号:CN202411395067.X

    申请日:2024-10-08

    Abstract: 本发明属于计算机视觉技术领域,公开了一种基于场景语言感知引导的多模态无人机目标检测框架。首先,将视觉‑语言预训练模型嵌入多模态目标检测框架中,提出了场景语言感知模块,利用视觉‑语言预训练模型为模型提供场景智能感知和理解能力。其次,通过条件参数生成模块根据当前场景和目标特征动态生成融合参数,通过为不同目标定制个性化的融合模式提升模型对场景变化的适应能力。最后,设计了多模态动态解码器,建立了动态对称融合机制,通过动态挖掘多模态数据间的复杂互补关联实现多模态特征融合,并根据当前场景实时调整不同模态的重要性,将DETR的解码机制从单模态扩展到多模态,为多模态无人机目标检测提供了无需先验框的新范式。

    一种基于批判反思性学习的开放集跨域高光谱图像分类方法和网络

    公开(公告)号:CN119992199A

    公开(公告)日:2025-05-13

    申请号:CN202510085621.2

    申请日:2025-01-20

    Abstract: 本申请公开了一种基于批判反思性学习的开放集跨域高光谱图像分类方法和网络,属于计算机视觉技术领域,包括:对源域数据和目标域数据进行特征提取,获取源域嵌入特征和目标域嵌入特征;将源域嵌入特征和目标域嵌入特征分别输入到教师网络和学生网络,以获取教师网络输出和学生网络输出;将教师网络输出的维度扩充至学生网络输出的维度,得到修正后的教师网络,同时控制学生网络学习修正的教师网络的输出结果,得到修正的学生网络;将目标域嵌入特征输入修正的学生网络,获取对目标域数据的类别预测结果。本申请将教师‑学生的思想引入开放集跨域高光谱图像分类任务,通过教师网络指导使学生网络掌握已知/未知类别的决策边界。

Patent Agency Ranking