- 专利标题: 一种基于SAM的文本信息驱动的行人检索方法及系统
-
申请号: CN202410424542.5申请日: 2024-04-10
-
公开(公告)号: CN118038497B公开(公告)日: 2024-06-21
- 发明人: 邓钰川 , 赵启军 , 傅可人 , 叶礼斌 , 邓宗永
- 申请人: 四川大学
- 申请人地址: 四川省成都市一环路南一段24号
- 专利权人: 四川大学
- 当前专利权人: 四川大学
- 当前专利权人地址: 四川省成都市一环路南一段24号
- 代理机构: 成都四合天行知识产权代理有限公司
- 代理商 张超
- 主分类号: G06V40/10
- IPC分类号: G06V40/10 ; G06V10/26 ; G06V10/74 ; G06V10/75 ; G06V10/764 ; G06V10/86 ; G06V30/40 ; G06V30/418 ; G06V30/19
摘要:
本发明公开了一种基于SAM的文本信息驱动的行人检索方法及系统,应用于图像识别技术,方法包括:形成图像编码和文本编码;进行细粒度跨模态对齐,并生成跨模态对比损失函数;构建遮蔽语言建模损失函数和遮蔽图像建模损失函数;构建二元分类任务损失函数;进行行人图像分割并生成图像分割损失函数;进行加权计算生成综合损失函数;根据综合损失函数构建检索模型,并通过检索模型对行人进行检索。本发明通过上述技术方案,不需要额外的训练样本即可实现高效率高精度的多模态识别,不仅考虑了全局的图像与文本匹配,还引入了基于局部嵌入的细粒度对齐机制。这种细粒度对齐能够捕捉到跨模态内容之间的微妙差异,实现更精确的模态对齐。
公开/授权文献
- CN118038497A 一种基于SAM的文本信息驱动的行人检索方法及系统 公开/授权日:2024-05-14