基于关系对齐的视觉问答方法、装置、设备、介质及产品

    公开(公告)号:CN118211657A

    公开(公告)日:2024-06-18

    申请号:CN202410221827.9

    申请日:2024-02-28

    Inventor: 谢雪梅 方冕

    Abstract: 本发明公开了一种基于关系对齐的视觉问答方法、装置、设备、介质及产品,包括:获取大规模数据集中图像的视觉目标特征、文本目标标签、语言特征、视觉关系特征和文本关系标签,对预设模型的编码器进行预训练任务的学习,得到预训练完成的模型参数;其中预训练任务包括实体对齐任务、关系对齐任务、全局对齐任务和跨模态对齐任务,分别用于预训练编码器中的物体编码器、关系编码器、语言编码器和跨模态编码器;根据参数进行视觉问答模型的微调,修改问题的输入方式并对视觉问答训练样本进行训练,得到目标视觉问答模型;输入待测图像和问题文本到目标视觉问答模型,得到视觉问答结果。采用本发明实施例,能够学习关系信息,提高视觉问答的准确性。

    一种问题图像三元组结构化引导的视觉问答方法和装置

    公开(公告)号:CN116401348A

    公开(公告)日:2023-07-07

    申请号:CN202310261086.2

    申请日:2023-03-16

    Abstract: 本发明涉及了一种问题图像三元组结构化引导的视觉问答方法和装置,该方法包括:获取目标图像和针对目标图像的目标问题;利用第一目标模型提取目标问题的问题全局特征、多个问题属性三元组特征和多个问题关系三元组特征;利用第二目标模型分别提取目标图像的多个图像属性三元组特征;利用目标注意力模型分别确定各个图像属性三元组特征与各个问题属性三元组特征的第一相关度,并将多个第一相关度组成属性注意力权重矩阵;将目标图像属性三元组特征、目标图像关系三元组特征以及问题全局特征进行拼接后输入目标答案分类器中,得到目标问题的答案信息。本方案在保证问题三元组的顺序结构下实现了多模态特征对齐和融合,提高了输出答案的准确度。

Patent Agency Ranking