一种基于全局信息和位置嵌入的场景图生成方法

    公开(公告)号:CN113836339A

    公开(公告)日:2021-12-24

    申请号:CN202111021629.0

    申请日:2021-09-01

    申请人: 淮阴工学院

    摘要: 本发明涉及计算机视觉技术领域,公开了一种基于全局信息和位置嵌入的场景图生成方法,基于大型数据集中的图像,由Faster‑RCNN得到高级特征图和每个实体信息并且对目标位置编码;将特征图和实体信息拼接的特征通过基于自注意力机制的网络得到节点间与其他目标的信息连接;利用LSTM的注意力网络得到目标上下文信息;构建边上下文生成的解码信息和目标图关系的生成融合方式;通过关系计算得到最终场景图。与现有技术相比,本发明将目标特征融入原始图像的视觉信息的方法,加入位置编码信息,连接全局信息和加权信息,提升整体视觉特征对于单一目标的影响,提高了模型推理时对于场景中主要目标的关注度和主宾分类的合理性,召回率有明显提升。

    一种基于多交互信息融合的图像描述方法

    公开(公告)号:CN115512195A

    公开(公告)日:2022-12-23

    申请号:CN202211194469.4

    申请日:2022-09-28

    申请人: 淮阴工学院

    摘要: 本发明涉及计算机视觉与自然语言处理领域,公开了一种基于多交互信息融合的图像描述方法,采用目标检测模型提取预处理后训练集的图像显著区域特征,然后使用多视觉语义信息交互模块进行编码显著区域特征得到多层增强图像融合特征,通过对多层增强图像融合特征进行平均池化生成全局图像融合特征;利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系,从而得到该时间步上下文信息;再经语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。与现有技术相比,本发明能够充分捕获图像视觉信息间的交互信息以及图像视觉信息与文本语义信息间交互信息的多种互补信息,实现对图像语义更加全面的理解。