基于Transformer网络和超球空间学习的多模态图像处理方法及系统

    公开(公告)号:CN114241273B

    公开(公告)日:2022-11-04

    申请号:CN202111451939.6

    申请日:2021-12-01

    摘要: 本发明公开了一种基于Transformer网络和超球空间学习的多模态图像处理方法及系统,包括获取预训练的Transformer网络模型,得到教师模型;构建由教师模型和多模态融合模型组成的多分支模型;提取教师蒸馏向量和学生蒸馏向量,以及各模态图像在单位超球空间的特征及其分类概率;计算各模态的蒸馏损失、模态间中心对齐损失、模态内均匀性损失和分类损失,并由此更新多模态融合模型;采用更新后的多模态融合模型基于待检测模态的图像和待查询模态的图像生成零样本跨模态检索结果。本发明能够有效提升多模态融合模型的建模和对齐多模态分布的能力,消除不同模态之间的模态差异问题,从而实现零样本跨模态检索。

    一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法

    公开(公告)号:CN114691911A

    公开(公告)日:2022-07-01

    申请号:CN202210285790.7

    申请日:2022-03-22

    IPC分类号: G06F16/55 G06F16/58 G06N3/08

    摘要: 本发明公开了一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法,该方法使用去冗余信息后的判别表示来进行跨视角地理图像检索;利用变分蒸馏技术,将特征提取模块所提取得到的特征,通过信息瓶颈模块压缩特征得到低维的图像表示,利用变分蒸馏损失和交叉熵分类损失来约束低维的图像表示保留更多的预测信息,达到去冗余信息的目的;最终得到低维的,具有判别性的图像表示作为检索特征,完成了提高检索结果准确性和加快检索速度的目标。

    基于对偶学习生成对抗网络的跨模态泛化零样本检索方法

    公开(公告)号:CN111581405B

    公开(公告)日:2021-10-26

    申请号:CN202010337222.8

    申请日:2020-04-26

    摘要: 本发明提出了一种基于对偶学习生成对抗网络的跨模态泛化零样本检索方法,该方法基于对偶学习构建生成对抗网络,将不同模态的高维视觉特征映射到共同的低维的语义嵌入空间,然后构造多种约束机制进行循环一致性约束,生成对抗约束和分类器约束,以维持视觉‑语义一致性和生成特征‑源特征一致性,经过整个网络训练后进行跨模态检索,使得模型在泛化零样本检索问题上性能更为强大。同时,整个训练过程不需要像素级上成对的多媒体数据对作为训练样本,只需要类别上成对的数据,以减少数据集收集的繁琐度和昂贵成本,检索效果更优,在零样本泛化检索问题中性能提升更为明显。

    通道顺序切换自监督提升长尾分布视觉识别能力的方法

    公开(公告)号:CN113435480A

    公开(公告)日:2021-09-24

    申请号:CN202110634205.5

    申请日:2021-06-07

    IPC分类号: G06K9/62 G06N20/00

    摘要: 本发明涉及计算机视觉领域,具体是通道顺序切换自监督提升长尾分布视觉识别能力的方法,包括两个阶段,自监督训练和有监督训练。准备数据集;将数据集中的图片进行预处理,包括对图片进行重采样处理和对图片进行随机通道顺序的变换;将预处理后的图片用于通道切换自监督训练,将通道顺序名称作为真实的标签计算损失函数,不断迭代网络直至收敛,保存模型;将数据集中的图片进行预处理,包括对图片进行重采样处理和对图片进行数据增强;初始化有监督训练网络,将保存的模型作为有监督训练过程的预训练模型,将预处理后的图片输入模型中进行训练;不断迭代训练网络,计算损失函数,直至模型达到预期的识别分类效果;解决了长尾分布带来的问题。

    基于监督转移的零样本哈希图片检索方法

    公开(公告)号:CN107346327A

    公开(公告)日:2017-11-14

    申请号:CN201710253104.7

    申请日:2017-04-18

    IPC分类号: G06F17/30 G06K9/62

    CPC分类号: G06F17/30268 G06K9/6269

    摘要: 本发明公开了一种基于监督转移的零样本哈希图片检索方法,属于图像哈希技术领域。本发明利用现有自然语言处理模型对已有训练数据的标签进行建模,形成一个标签空间。通过新的标签空间潜在的保存标签之间的关系,训练从图片特征空间到标签空间的映射。在此基础上,将此映射关系反映在哈希码上。本发明对训练样本没有严格要求,应用范围广,特别是在大型数据库里,当类别较多且无法对每一个类别找出训练样本时,本发明可以极大程度地提高对于该类别的图片检索准确率。

    一种基于布局感知提示的文档视觉语言推理方法

    公开(公告)号:CN116822634A

    公开(公告)日:2023-09-29

    申请号:CN202310817907.6

    申请日:2023-07-05

    摘要: 本发明公开了一种基于布局感知提示的文档视觉语言推理方法,该方法利用大型语言模型进行视觉信息丰富的文档推理,将文档图像的文本信息与视觉信息集成的提示,通过提示学习引入布局信息,引导大型语言模型能够理解问题中的文本与视觉内容之间的关系,并使用该信息改善上下文学习生成答案,让单模态大语言模型也能处理多模态文档视觉问答任务,帮助大型语言模型在少样本学习上达到理想的效果,并在3种不同的文档视觉问答数据集测试方法的泛化性。

    一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法

    公开(公告)号:CN114691911B

    公开(公告)日:2023-04-07

    申请号:CN202210285790.7

    申请日:2022-03-22

    摘要: 本发明公开了一种基于信息瓶颈变分蒸馏的跨视角地理图像检索方法,该方法使用去冗余信息后的判别表示来进行跨视角地理图像检索;利用变分蒸馏技术,将特征提取模块所提取得到的特征,通过信息瓶颈模块压缩特征得到低维的图像表示,利用变分蒸馏损失和交叉熵分类损失来约束低维的图像表示保留更多的预测信息,达到去冗余信息的目的;最终得到低维的,具有判别性的图像表示作为检索特征,完成了提高检索结果准确性和加快检索速度的目标。

    基于三元融合神经网络用于图像和菜谱的跨模态检索方法

    公开(公告)号:CN115438206A

    公开(公告)日:2022-12-06

    申请号:CN202110612179.6

    申请日:2021-06-02

    摘要: 本发明属于跨模态检索领域,提出一种基于三元融合神经网络用于图像和菜谱的跨模态检索方法,包括:分别提取食物图像数据、烹饪步骤数据和食材数据的特征向量,烹饪步骤数据和食材数据组成菜谱数据;对食材数据运用注意力机制,计算不同食材的特征权重;对提取到特征向量进行三元融合,并结合不同食材的特征权重得到三元融合特征向量,并进行张量分解和学习,得到最终的三元融合特征向量,进行映射后,得到食物图像和菜谱的相似度;利用三阶段的采样策略对食物图像和菜谱的相似度样本进行筛选;利用筛选出的样本训练整体三元融合神经网络;利用训练好的三元融合神经网络对食物图像和菜谱进行跨模态检索。本发明能够实现有效的跨模态检索。

    融合多层特征增强注意力机制的文字识别方法

    公开(公告)号:CN112784831B

    公开(公告)日:2022-06-28

    申请号:CN202110144038.6

    申请日:2021-02-02

    摘要: 本发明涉及计算机视觉中的光学字符识别技术领域,提供一种融合多层特征增强注意力机制的文字识别方法,该方法包括:选取训练图片;提取图片特征;构建特征融合矩阵并融合多层特征;利用关联特征进行特征融合,增强特征表现能力;对融合后的特征进行序列建模;对序列建模后的特征进行概率预测;在训练阶段,采用反向传播对网络模型的参数权重进行更新,得到可用于文字识别的标准网络模型;在测试阶段,将待识别的图片输入到训练好的网络模型中,模型识别并输出图片中的文字。本发明通过将神经网络的各个层级提取到的特征进行相互映射,以此来提升特征的表达能力,从而提高了文字识别的准确率。

    通道顺序切换自监督提升长尾分布视觉识别能力的方法

    公开(公告)号:CN113435480B

    公开(公告)日:2022-06-21

    申请号:CN202110634205.5

    申请日:2021-06-07

    摘要: 本发明涉及计算机视觉领域,具体是通道顺序切换自监督提升长尾分布视觉识别能力的方法,包括两个阶段,自监督训练和有监督训练。准备数据集;将数据集中的图片进行预处理,包括对图片进行重采样处理和对图片进行随机通道顺序的变换;将预处理后的图片用于通道切换自监督训练,将通道顺序名称作为真实的标签计算损失函数,不断迭代网络直至收敛,保存模型;将数据集中的图片进行预处理,包括对图片进行重采样处理和对图片进行数据增强;初始化有监督训练网络,将保存的模型作为有监督训练过程的预训练模型,将预处理后的图片输入模型中进行训练;不断迭代训练网络,计算损失函数,直至模型达到预期的识别分类效果;解决了长尾分布带来的问题。