一种基于多域异质图引导的视觉问题常识推理模型及方法
摘要:
本发明公开了一种基于多域异质图引导的视觉问题常识推理模型及方法,所述模型包括:预训练模型初始化单元,利用预训练模型对基础骨架网络和分类器参数进行初始化;视觉信息提取单元,用于利用检测器来提取输入图像的视觉信息的初始特征;上下文投票单元,用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中;语言特征提取单元,用于利用自然语言预训练模型提取语言部分问题和答案的特征表示;多域特征推理融合单元,用于构造多域异质图,将视觉信息特征和语言信息特征利用多域异质图进行多域特征推理融合获得最终特征表示;分类单元,用于利用分类器对获得的特征处理后进行打分,选取得分高的选项为答案。
0/0