基于文本模态对齐的跨模态行人重识别方法及装置

    公开(公告)号:CN118447530A

    公开(公告)日:2024-08-06

    申请号:CN202410300121.1

    申请日:2024-03-15

    Abstract: 本发明公开一种基于文本模态对齐的跨模态行人重识别方法及装置,属于人工智能技术领域。所述方法包括:训练一可学习向量来捕捉红外图像和可见光图像中与身份相关的模态共享信息;结合训练后的可学习向量获取每个行人ID的文本模态表示,并使用图像编码器提取红外图像和可见光图像中该行人ID的红外模态表示和可见光模态表示;基于所述文本模态表示、所述红外模态表示和所述可见光模态表示之间的彼此对齐来训练该图像编码器;基于训练后的图像编码器对目标红外图像或目标可见光图像中的行人进行编码,并通过对编码结果的分类,得到跨模态的行人重识别结果。本发明可以提升跨模态行人重识别模型的精度。

    基于多特征图注意网络模型的视频-文本跨模态检索方法和装置

    公开(公告)号:CN112883229B

    公开(公告)日:2022-11-15

    申请号:CN202110256218.3

    申请日:2021-03-09

    Abstract: 本发明涉及一种基于多特征图注意网络模型的视频‑文本跨模态检索方法和装置。该方法的步骤包括:建立多特征图注意网络模型,用于挖掘视频不同模态特征之间的结构关系,通过不同视频特征之间的高级语义信息交换获得高效的视频特征表示;采用双重约束排序损失函数训练所述多特征图注意网络模型,所述双重约束排序损失函数包含视频‑文本对之间的排序约束函数和单类数据内部的结构约束函数,不仅可以让语义相似的文本和视频在嵌入空间相近,而且能够在嵌入空间中保持原始的结构特性;利用训练完成的所述多特征图注意网络模型进行视频‑文本的跨模态检索。本发明使视频‑文本检索的检索性能得到了显著提升。

    一种多标签图像的二值向量生成方法及图像语义相似度查询方法

    公开(公告)号:CN108399185B

    公开(公告)日:2021-12-21

    申请号:CN201810023335.3

    申请日:2018-01-10

    Abstract: 本发明公开了一种多标签图像的二值向量生成方法及图像语义相似度查询方法。本发明1利用训练数据集对卷积神经网络模型进行训练,直至该卷积神经网络模型的损失值趋于稳定;然后利用训练后的卷积神经网络模型对图像数据库中的图片进行计算,得到每张图片的二值向量并进行存储;利用训练后的卷积神经网络模型计算待查询图片的二值向量,并将其与存储的二值向量进行相似度计算,根据相似度计算结果返回与该待查询图片最相似的若干图片。本发明大大提高了图像的存储效率和查询效率;而且可以根据与查询图片的多级语义相似度对目标图片进行排序。

    一种基于文本提示的语义引导的行人重识别方法和系统

    公开(公告)号:CN120032307A

    公开(公告)日:2025-05-23

    申请号:CN202410736218.7

    申请日:2024-06-07

    Abstract: 本发明属于信息技术领域,涉及一种基于文本提示的语义引导的行人重识别方法和系统。该方法包括:将训练图像输入视觉编码器,得到视觉嵌入;利用逆向网络将视觉嵌入映射到文本空间,得到伪令牌,将伪令牌整合到自然语言句子中,得到对于输入图像的语言提示;将语言提示输入文本编码器中,得到文本嵌入;利用视觉嵌入和文本嵌入训练多模态交互模块;将查询图片输入训练完成的多模态交互模块,获得融合视觉与文本信息的特征向量,利用融合视觉与文本信息的特征向量在行人图像数据库中执行相似度检索,得到行人重识别结果。本发明在现有行人重识别数据集上的检索性能得到了显著提升。

    基于分化注意力和去噪过程引导的多目标图像生成方法

    公开(公告)号:CN119722833A

    公开(公告)日:2025-03-28

    申请号:CN202411591540.1

    申请日:2024-11-08

    Abstract: 本发明公开了一种基于分化注意力和去噪过程引导的多目标图像生成方法,其步骤包括:1)针对给定包括N个目标词的文本提示y以及一初始隐编码zT,利用稳定扩散模型生成文本提示y中每一目标词与zT之间的交叉注意力图CAT;2)通过设定损失函数优化初始隐编码zT;3)稳定扩散模型生成文本提示y中每一目标词与优化后的初始隐编码zT之间的最优交叉注意力图#imgabs0#4)稳定扩散模型对优化后的初始隐编码zT进行迭代去噪并对设定时间步生成的交叉注意力图进行插值;然后对迭代去噪结束所得隐编码z0进行解码生成该文本提示y对应的图像。本发明有效提高生成图像与给定文本提示之间的语义匹配性。

    一种基于解耦空间对齐的黑盒模型逆向重建方法

    公开(公告)号:CN118644728A

    公开(公告)日:2024-09-13

    申请号:CN202410809839.3

    申请日:2024-06-21

    Abstract: 本发明公开了一种基于预测向量映射的黑盒模型逆向重建方法,属于图像处理与机器学习领域。本发明在数据挑选阶段,通过从公共数据集中选择具有最高置信度的图像和对应预测向量,构成训练集;在训练阶段,训练一个从预测向量到StyleGAN潜在空间再到图像的逆向模型,并引入多种损失函数确保重建图像与真实图像的相似性;在攻击阶段,通过预测集成攻击方法,增强目标身份的特征,实现有效的图像重建。本发明解决了现有方法中计算成本高、效率低的问题,通过解耦潜在空间的对齐,提升了重建图像的质量和精度。本发明取得了高效攻击过程、语义连续的面部嵌入、增强的特征对齐和更高的重建性能等效果。

    基于模块融合的大模型能力扩展方法及系统

    公开(公告)号:CN120069059A

    公开(公告)日:2025-05-30

    申请号:CN202510016701.2

    申请日:2025-01-06

    Abstract: 本发明公开一种基于模块融合的大模型能力扩展方法及系统,属于人工智能技术领域。本发明通过引入LoRA模块和融合模块,优化了大规模预训练模型在引入新任务时的能力扩展,保持了较高的微调和推理效率;通过任务数据的抽样重放,有效缓解了不同任务数据质量差异带来的问题,降低了适应新任务的难度。此外,由于本发明设计的模型结构不含有非线性层,因此多个LoRA的合并等效于参数矩阵的乘积运算,该过程可以在不增加大量计算开销的情况下完成能力扩展。

    基于特征空间有效面积的自适应加权长尾分类方法及装置

    公开(公告)号:CN114926676B

    公开(公告)日:2025-05-02

    申请号:CN202210425626.1

    申请日:2022-04-21

    Abstract: 本发明公开了一种基于特征空间有效面积的自适应加权长尾分类方法及装置,所述方法包括:在原始数据的分布上训练特征提取器与分类器,得到基本分类模型;基于训练后的特征提取器,抽取所述原始数据的特征表示,并根据每一类别中所述特征表示之间的相关系数,构建该类别的相关系数矩阵;基于所述相关系数矩阵,计算每一类别在特征空间中的有效面积,并通过所述有效面积给各类别分配权重,训练所述基本分类模型,以得到分类模型;基于所述分类模型,获取待检测数据的分类结果。本发明通过估计特征空间中的有效面积从而给予不同的类别不同的权重损失,更好的划分特征空间,以对长尾数据进行更有效地分类。

Patent Agency Ranking