-
公开(公告)号:CN116821391A
公开(公告)日:2023-09-29
申请号:CN202310855462.0
申请日:2023-07-13
Applicant: 哈尔滨工业大学
IPC: G06F16/532 , G06F16/583 , G06F16/332 , G06F16/33 , G06F16/383 , G06F18/22 , G06F18/25 , G06V10/42 , G06V10/44 , G06V10/82 , G06F40/284 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/047 , G06N3/048
Abstract: 一种基于多级别语义对齐的跨模态图文检索方法,属于跨模态检索和人工智能技术领域。本发明方法提出了一种简单而对称的网络架构来对图像和文本特征进行编码,兼顾了全局‑全局、全局‑局部以及局部‑局部的多级别语义对齐,通过引入模态间细粒度特征交互注意力网络与模态内不同粒度特征融合网络,实现了不同粒度特征在不同级别上的融合交互,解决了现有跨模态检索研究工作存在的多粒度特征交互弱,且难以分辨图像区域特征相似或文本语义相近的图文对的技术问题;同时,本发明方法采用了多级别语义匹配总分数与具有自适应边距值的三元排序损失,实现了更优良的跨模态语义对齐,大大提高了跨模态图文检索任务的精度。