一种图像文本检索方法、装置及计算机存储介质

    公开(公告)号:CN114707007B

    公开(公告)日:2022-08-30

    申请号:CN202210635337.4

    申请日:2022-06-07

    申请人: 苏州大学

    摘要: 本发明公开了一种图像文本检索方法、装置及计算机存储介质,包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建正排表,基于正排表获取与各个图像样本关键词对应的图像样本,构建倒排表,将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词,基于倒排表,在图像样本库中检索与检索文本关键词对应的图像样本,得到预筛选图像样本集,将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果,降低图像文本检索模型的计算复杂度,将搜索引擎的倒排表引入到关键词匹配中,实现高效预筛选,提高了检索效率。

    基于文本的行人搜索任务语义对齐方法及系统

    公开(公告)号:CN114860978A

    公开(公告)日:2022-08-05

    申请号:CN202210493534.7

    申请日:2022-05-07

    申请人: 苏州大学

    摘要: 本发明涉及一种基于文本的行人搜索任务语义对齐方法及系统,包括将图像和文本的特征输入至特征聚合网络,输出语义对齐后的感知特征,图像和文本的局部特征通过受跨模态局部对齐损失和三元组损失约束的多头注意力模型实现对齐;基于感知特征计算图像和文本的原始相似度;在推理过程中,给定文本查询,根据原始相似度对图像进行排序,获得初始排序列表,对于初始排序列表中的每个图像相似性得到图像的最近邻,并得到文本查询的最近邻,根据两个最近邻计算文本查询与每个图像之间的成对相似度,对图像进行重排序。本发明不需要额外的模型干预和跨模态注意机制,自动获得跨模式语义对齐的感知特征,且通过文本查询重排序的方式提高语义对齐的性能。

    基于文本的行人搜索任务语义对齐方法及系统

    公开(公告)号:CN114860978B

    公开(公告)日:2024-08-16

    申请号:CN202210493534.7

    申请日:2022-05-07

    申请人: 苏州大学

    摘要: 本发明涉及一种基于文本的行人搜索任务语义对齐方法及系统,包括将图像和文本的特征输入至特征聚合网络,输出语义对齐后的感知特征,图像和文本的局部特征通过受跨模态局部对齐损失和三元组损失约束的多头注意力模型实现对齐;基于感知特征计算图像和文本的原始相似度;在推理过程中,给定文本查询,根据原始相似度对图像进行排序,获得初始排序列表,对于初始排序列表中的每个图像相似性得到图像的最近邻,并得到文本查询的最近邻,根据两个最近邻计算文本查询与每个图像之间的成对相似度,对图像进行重排序。本发明不需要额外的模型干预和跨模态注意机制,自动获得跨模式语义对齐的感知特征,且通过文本查询重排序的方式提高语义对齐的性能。

    一种图像文本检索方法、装置及计算机存储介质

    公开(公告)号:CN114707007A

    公开(公告)日:2022-07-05

    申请号:CN202210635337.4

    申请日:2022-06-07

    申请人: 苏州大学

    摘要: 本发明公开了一种图像文本检索方法、装置及计算机存储介质,包括将图像样本库内图像样本输入至完成训练的多标签图像分类器中,输出图像样本关键词,基于每幅图像样本及其对应的图像样本关键词之间的映射关系,构建正排表,基于正排表获取与各个图像样本关键词对应的图像样本,构建倒排表,将检索文本输入至完成训练的多标签文本分类器中,输出检索文本关键词,基于倒排表,在图像样本库中检索与检索文本关键词对应的图像样本,得到预筛选图像样本集,将预筛选图像样本集与检索文本输入至完成训练的图像文本检索模型,输出检索结果,降低图像文本检索模型的计算复杂度,将搜索引擎的倒排表引入到关键词匹配中,实现高效预筛选,提高了检索效率。