-
公开(公告)号:CN118887382A
公开(公告)日:2024-11-01
申请号:CN202410896916.3
申请日:2024-07-05
Applicant: 电子科技大学
IPC: G06V10/25 , G06V10/22 , G06V10/766 , G06V10/764 , G06V10/74 , G06V10/774
Abstract: 本发明公开了一种基于预训练模型定位知识嵌入的零样本目标检测方法,属于深度学习目标检测领域。本发明在COCO数据集基础上,构建一个区域图像、IoU标签的数据集(Region‑IoU)。然后使用该数据集对传统的视觉语言模型CLIP进行微调以及学习对IoU敏感的语义提示。使得的IoU‑CLIP模型具备局部目标定位的相关知识,能够预测检测框的IoU分数以及生成类无关IoU敏感的视觉特征。最后将该特征与IoU分数集成进开放词汇零样本检测框架。本发明可以有效地提升开放词汇零样本目标检测任务的性能。
-
公开(公告)号:CN119203019A
公开(公告)日:2024-12-27
申请号:CN202411024976.2
申请日:2024-07-29
Applicant: 电子科技大学
IPC: G06F18/25 , G06V40/20 , G06V20/40 , G06F18/22 , G06F18/213 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/096
Abstract: 该发明公开了一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,属于多模态行为识别领域。本发明首先将视觉模态输入预训练的CLIP视觉编码器提取视觉特征,将经过STFT变换的加速度计模态、陀螺仪模态频谱图提取对应的特征,文本通过预训练的CLIP文本编码器提取到文本特征。然后将视觉特征传入到适配器模块,将零样本知识与新的自适应特征知识进行动态结合,得到最终的视觉特征。加速度计模态、陀螺仪模态通过惯性传感器融合模块得到最终的惯性传感器特征。最后将文本、视觉、惯性传感器特征一同输入多模态融合模块,充分考虑不同模态间对齐的问题,有效地提升模态融合的效果。该方法在零样本多模态第一视角行为识别任务上表现令人满意。
-