一种基于知识增强的跨模态匹配方法及装置
摘要:
本发明公开了一种基于知识增强的跨模态匹配方法及装置,方法包括:基于多模态聚类的外源知识信息,利用多头注意力机制对输入的图像特征和文本特征进行编码,得到编码后的图像特征和编码后的文本特征;获取基于多模态聚合的区域语义知识信息,利用标签信息的引导,将图像区域特征与标签信息进行聚合,利用聚合后的特征,与编码后的文本特征通过多步推理的图卷积网络进行交互,获取基于多模态聚合的区域语义知识信息;基于多模态聚合的区域语义知识信息,通过门控机制,对编码后的图像特征和编码后的文本特征进行增强,得到增强后的图像特征和增强后的文本特征;对增强后的图像特征和增强后的文本特征同时使用全局和局部对齐的自适应联合推理,实现图像和文本对的跨模态匹配。装置包括:处理器和存储器。
0/0