-
公开(公告)号:CN116401348A
公开(公告)日:2023-07-07
申请号:CN202310261086.2
申请日:2023-03-16
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06F16/332 , G06F16/35 , G06F16/33 , G06F40/30 , G06F16/55
Abstract: 本发明涉及了一种问题图像三元组结构化引导的视觉问答方法和装置,该方法包括:获取目标图像和针对目标图像的目标问题;利用第一目标模型提取目标问题的问题全局特征、多个问题属性三元组特征和多个问题关系三元组特征;利用第二目标模型分别提取目标图像的多个图像属性三元组特征;利用目标注意力模型分别确定各个图像属性三元组特征与各个问题属性三元组特征的第一相关度,并将多个第一相关度组成属性注意力权重矩阵;将目标图像属性三元组特征、目标图像关系三元组特征以及问题全局特征进行拼接后输入目标答案分类器中,得到目标问题的答案信息。本方案在保证问题三元组的顺序结构下实现了多模态特征对齐和融合,提高了输出答案的准确度。
-
公开(公告)号:CN118365919A
公开(公告)日:2024-07-19
申请号:CN202410236499.X
申请日:2024-03-01
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82
Abstract: 本发明公开了一种基于程序链的视觉问答方法、装置、设备、介质及产品,包括:基于Transformer模型,对问题进行解析得到步骤特征向量,根据步骤特征向量获取对应的语义操作,得到程序链;基于目标检测模型、属性检测模型和关系检测模型,获取图像的视觉特征和文本语义特征,并通过注意力网络进行对齐任务的学习,得到跨模态的联合特征空间;基于注意力网络和程序链,根据步骤特征向量和联合特征空间对问题进行多步推理,得到答案,完成一张图像的训练;重复上述步骤,直至完成所有图像的训练,得到目标视觉问答模型;输入待测图像和问题文本到目标视觉问答模型,得到视觉问答结果。采用本发明实施例,能够提高视觉问答结果的准确性。
-