基于自监督对比学习概念对齐的跨模态检索方法及系统

    公开(公告)号:CN117150068A

    公开(公告)日:2023-12-01

    申请号:CN202311123142.2

    申请日:2023-09-01

    Abstract: 本发明提出基于自监督对比学习概念对齐的跨模态检索方法及系统,属于信息技术领域,通过独立嵌入模型从给定图像‑文本对中提取视觉局部区域特征和文本局部特征,局部概念对齐模块根据对象特征和单词特征的语义相似性,建立每个单词与最相似对象之间的对应关系,生成正样本;将正样本的对象特征映射到概念码本上,计算对象特征与概念原型的关联概率并作为视觉分配权重;根据对象原型任务训练局部概念对齐模块,增强独立嵌入模型;训练完成后,使用增强的独立嵌入模型进行图像和文本的跨模态检索。本发明能够实现图像对象与文本单词的细粒度对齐,使得在原模型的全局表征的细粒度信息的基础上,在保持图文检索的精度的基础上提高检索效率。

    一种基于层次结构的无偏置场景图生成方法

    公开(公告)号:CN115269925A

    公开(公告)日:2022-11-01

    申请号:CN202210724045.8

    申请日:2022-06-23

    Abstract: 本发明公开了一种基于层次结构的无偏置场景图生成方法。本方法为:1)利用有偏模型对图像样本进行处理,得到有偏模型预测结果;根据各图像样本对应的所述有偏模型预测结果构建一层次化关系树;其中,所述有偏模型为场景图生成模型;2)根据所述层次化关系树和设定的层次化关系损失函数,计算损失值;然后基于所述损失值利用梯度反向传播方法优化所述有偏模型,使所述有偏模型输出结果迭代优化,最终输出无偏置场景图;3)对于一待处理的图像,将其输入步骤2)优化后的所述有偏模型,得到对应的无偏置场景图。本发明能够让模型由粗到细地学习不同关系间的区别,从高度有偏的长尾场景图数据中生成无偏置场景图。

    基于全局与局部语义对比学习的跨模态检索方法及系统

    公开(公告)号:CN117150069A

    公开(公告)日:2023-12-01

    申请号:CN202311123143.7

    申请日:2023-09-01

    Abstract: 本发明提出基于全局与局部语义对比学习的跨模态检索方法及系统,属于信息技术领域,通过独立嵌入模型从给定图像‑文本对提取视觉和文本的局部上下文特征,并输入到上下文对齐模块中获得视觉和文本的全局上下文特征,再据此获得增强的视觉和文本的局部上下文特征和全局上下文特征,进而获得视觉和文本的局部聚合上下文特征,通过特征融合得到视觉和文本的全局融合上下文特征,进而得到给定图像‑文本对的上下文关系级别匹配分数;训练上下文对齐模块,增强独立嵌入模型的表征能力。本发明从全局表征中提取细粒度信息,平衡图文检索的精度和效率,在不损失独立嵌入模型的高效检索特性的情况下提高检索精度。

Patent Agency Ranking