一种基于知识的视觉问答任务下的多模态信息融合方法
Abstract:
本发明涉及计算机视觉和自然语言处理领域,具体涉及的是一种基于知识的视觉问答任务下的多模态信息融合方法。本发明将外部知识作为一个单独的模态,拓展了基于知识的视觉问答的思路;使用纯正的注意力方法将自然语言问题、图像和三元组形式的知识这三个模态进行深层的融合,为基于知识的视觉问答任务提供了新颖有效地解决方案,本发明提出的多模态融合技术不局限于基于知识的视觉问答任务,可以将其扩展到其他多模态任务当中去;使用新颖有效地位置编码方法为图像的位置进行编码,比传统方法中不利用图像位置信息或者使用图像区域坐标作为位置信息,本发明中的位置编码更加有效,可以高效的解决基于知识的视觉问答任务中跟图像位置相关的问题。
Patent Agency Ranking
0/0