一种基于知识的视觉问答任务下的多模态信息融合方法

Invention Publication

CN113240046A 一种基于知识的视觉问答任务下的多模态信息融合方法有权

Please log in to see more content

Patent Title: 一种基于知识的视觉问答任务下的多模态信息融合方法
Application No.: CN202110611831.2

Application Date: 2021-06-02
Publication No.: CN113240046A

Publication Date: 2021-08-10
Inventor: 张智 , 杨建行 , 王哲 , 姚海波 , 王立鹏 , 张雯 , 韩遥
Applicant: 哈尔滨工程大学
Applicant Address: 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室
Assignee: 哈尔滨工程大学
Current Assignee: 哈尔滨工程大学
Current Assignee Address: 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室
Main IPC: G06K9/62
IPC: G06K9/62 ; G06F16/583 ; G06F40/30 ; G06N3/04 ; G06N3/08

Abstract:

本发明涉及计算机视觉和自然语言处理领域，具体涉及的是一种基于知识的视觉问答任务下的多模态信息融合方法。本发明将外部知识作为一个单独的模态，拓展了基于知识的视觉问答的思路；使用纯正的注意力方法将自然语言问题、图像和三元组形式的知识这三个模态进行深层的融合，为基于知识的视觉问答任务提供了新颖有效地解决方案，本发明提出的多模态融合技术不局限于基于知识的视觉问答任务，可以将其扩展到其他多模态任务当中去；使用新颖有效地位置编码方法为图像的位置进行编码，比传统方法中不利用图像位置信息或者使用图像区域坐标作为位置信息，本发明中的位置编码更加有效，可以高效的解决基于知识的视觉问答任务中跟图像位置相关的问题。

Public/Granted literature

CN113240046B 一种基于知识的视觉问答任务下的多模态信息融合方法 Public/Granted day:2023-01-03

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06K	图形数据读取（图像或视频识别或理解G06V）；数据的呈现；记录载体；处理记录载体
G06K9/00	识别模式的方法或装置（图形读取或将机械参数模式（例如力或存在）转换为电信号的方法或装置 G06K11/00）（图像或视频识别或理解 G06V）（语音识别 G10L15/00 )
G06K9/62	.应用电子设备进行识别的方法或装置