发明公开
- 专利标题: 一种基于蒸馏CLIP模型的生成式零样本目标检测方法及系统
-
申请号: CN202410585555.0申请日: 2024-05-13
-
公开(公告)号: CN118397250A公开(公告)日: 2024-07-26
- 发明人: 闫彩霞 , 焦慕妍 , 张未展 , 薛诺寒 , 吕格丽 , 李睿 , 杜海鹏 , 龚铁梁 , 王志文 , 孙皓 , 李永翔 , 刘江
- 申请人: 西安交通大学 , 中电信人工智能科技(北京)有限公司
- 申请人地址: 陕西省西安市碑林区咸宁西路28号;
- 专利权人: 西安交通大学,中电信人工智能科技(北京)有限公司
- 当前专利权人: 西安交通大学,中电信人工智能科技(北京)有限公司
- 当前专利权人地址: 陕西省西安市碑林区咸宁西路28号;
- 代理机构: 西安智大知识产权代理事务所
- 代理商 段俊涛
- 主分类号: G06V10/25
- IPC分类号: G06V10/25 ; G06V20/70 ; G06V10/44 ; G06V10/80 ; G06V10/764 ; G06V10/766 ; G06V10/82 ; G06F40/30 ; G06N3/0464 ; G06N3/0455 ; G06N3/0475 ; G06N3/09 ; G06N3/094 ; G06N3/096
摘要:
本发明公开了一种基于蒸馏CLIP模型的生成式零样本目标检测方法及系统,方法包括:基于基准模型和训练集执行训练流程,得到训练好的有监督目标检测模型;将训练集输入训练后冻结参数的基准模型,提取已见类视觉特征,并将已见类和未见类的类别信息分别输入CLIP模型,获得类语义嵌入;通过离线知识蒸馏的方式,使用CLIP模型编码已见类语义嵌入和已见类视觉特征,通过蒸馏模块实现CLIP模型对生成模型的知识转移,训练未见类的分类头,并入训练好的基准模型的分类器中;利用修改后的基准模型即可得到输入图片的定位和分类结果。本发明以优化未见类视觉特征生成的方式实现对零样本目标检测精度的提高化,提升了零样本目标检测的性能。