- 专利标题: 基于多层注意力机制的跨模态检索模型的构建方法及应用
-
申请号: CN202110995974.8申请日: 2021-08-27
-
公开(公告)号: CN113779361A公开(公告)日: 2021-12-10
- 发明人: 李国徽 , 孔浩 , 袁凌 , 魏明 , 金从元
- 申请人: 华中科技大学 , 武汉烽火技术服务有限公司
- 申请人地址: 湖北省武汉市洪山区珞喻路1037号;
- 专利权人: 华中科技大学,武汉烽火技术服务有限公司
- 当前专利权人: 华中科技大学,武汉烽火技术服务有限公司
- 当前专利权人地址: 湖北省武汉市洪山区珞喻路1037号;
- 代理机构: 华中科技大学专利中心
- 代理商 祝丹晴
- 主分类号: G06F16/953
- IPC分类号: G06F16/953 ; G06F16/9538 ; G06K9/62 ; G06N3/04 ; G06N3/08
摘要:
本发明公开了一种基于多层注意力机制的跨模态检索模型的构建方法及应用,包括:S1、搭建跨模态检索模型;S2、计算图像模态和文本模态间的不变性损失、标签空间损失、以及公共表示空间中不同模态间和各个模态内的判别损失,加以不同的权重,得到跨模态检索模型的损失函数;S3、通过最小化跨模态检索模型的损失函数对跨模态检索模型进行训练。本发明在训练过程中,通过考虑不同模态之间的相互影响,分别对各图像文本数据对基于多层注意力机制学习其文本特征和图像特征内细粒度的上下文局部信息,以及学习其文本特征和图像特征之间的全局特征对应关系,充分利用了原始数据中的语义信息,将多模态特征进行融合,大大提高了跨模态检索的准确度。
公开/授权文献
- CN113779361B 基于多层注意力机制的跨模态检索模型的构建方法及应用 公开/授权日:2024-09-10