-
公开(公告)号:CN116049371A
公开(公告)日:2023-05-02
申请号:CN202310119450.1
申请日:2023-01-18
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/34 , G06F16/54 , G06F16/35 , G06F16/532 , G06F18/214 , G06V10/774
Abstract: 本发明公开了一种基于正则化和对偶学习的视觉问答方法与装置,所述方法具体包括以下子步骤:提取VQA数据集中问题的关键词;对图像数据预处理,筛选图像中的关键区域;将关键词和图像中的关键区域输入至VQA、VQG模型进行预训练;构建视觉蕴涵模型,并进行预训练;利用视觉蕴涵模型进行相关性判断,构建训练样本,基于正则化和对偶学习对预训练好的VQA和VQG模型进行协同训练;利用训练好的VQA和VQG模型进行视觉问答。