发明公开
- 专利标题: 一种基于知识增强的跨模态匹配方法及装置
-
申请号: CN202410513675.X申请日: 2024-04-26
-
公开(公告)号: CN118427631A公开(公告)日: 2024-08-02
- 发明人: 刘安安 , 杨龙 , 李文辉 , 王岚君 , 田宏硕
- 申请人: 天津大学
- 申请人地址: 天津市南开区卫津路92号
- 专利权人: 天津大学
- 当前专利权人: 天津大学
- 当前专利权人地址: 天津市南开区卫津路92号
- 代理机构: 天津市北洋有限责任专利代理事务所
- 代理商 李林娟
- 主分类号: G06F18/22
- IPC分类号: G06F18/22 ; G06N5/04 ; G06N3/042 ; G06N3/0464 ; G06N3/0442
摘要:
本发明公开了一种基于知识增强的跨模态匹配方法及装置,方法包括:基于多模态聚类的外源知识信息,利用多头注意力机制对输入的图像特征和文本特征进行编码,得到编码后的图像特征和编码后的文本特征;获取基于多模态聚合的区域语义知识信息,利用标签信息的引导,将图像区域特征与标签信息进行聚合,利用聚合后的特征,与编码后的文本特征通过多步推理的图卷积网络进行交互,获取基于多模态聚合的区域语义知识信息;基于多模态聚合的区域语义知识信息,通过门控机制,对编码后的图像特征和编码后的文本特征进行增强,得到增强后的图像特征和增强后的文本特征;对增强后的图像特征和增强后的文本特征同时使用全局和局部对齐的自适应联合推理,实现图像和文本对的跨模态匹配。装置包括:处理器和存储器。