一种基于多维关系对齐的无监督视觉表征学习的图像分类方法

    公开(公告)号:CN113344069B

    公开(公告)日:2023-01-24

    申请号:CN202110606700.5

    申请日:2021-05-31

    摘要: 本发明提供一种基于多维关系对齐的无监督视觉表征学习的图像分类方法,包括:步骤1,获取预训练图像数据以及增广视图;步骤2,构建包括在线编码器和离线编码器的双分支网络,将增广视图分别输入在线编码器和离线编码器得到特征以及负样本;步骤3,定义增广视图的特征与负样本的关系矩阵,并采用交叉对齐策略构建关系对齐损失;步骤4,设计多维关系对齐损失并进行无监督预训练;步骤5,通过添加分类器构成图像分类网络;步骤6,微调图像分类网络;步骤7,利用微调后的图像分类网络执行图像分类任务。本发明将关系对齐作为无监督视觉表征学习的核心,其在不引入任何不可靠约束的情况下,深入探索了样本之间的相似度关系。

    一种基于文本行匹配的跨图文本阅读方法

    公开(公告)号:CN113342997B

    公开(公告)日:2022-11-11

    申请号:CN202110538489.8

    申请日:2021-05-18

    IPC分类号: G06F16/38 G06N3/04

    摘要: 本发明提供一种基于文本行匹配的跨图文本阅读方法,包括:步骤10,获取输入的两张文本图像;步骤20,提取出文本行位置,过滤不可读文本行并进行特征提取,得到文本行特征;步骤30,获得文本行匹配结果:步骤31,将文本行位置和文本行特征进行特征编码得到节点特征;步骤32,对节点特征进行自优化和交叉优化得到优化后的节点特征;步骤33,利用优化后的节点特征计算打分矩阵,得到文本行匹配结果;步骤4,根据文本行匹配结果拼接文本行特征,并提取出对应文本得到文本识别结果;步骤5,融合文本识别结果,得到文本阅读结果。本发明能够充分利用文本的先验信息,在文本行级别上完成跨图文本阅读任务,取得了比像素级合并和阅读方法更好的效果。

    一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法

    公开(公告)号:CN109033321B

    公开(公告)日:2021-12-17

    申请号:CN201810790480.4

    申请日:2018-07-18

    发明人: 李宏亮 石恒璨

    IPC分类号: G06F16/58 G06N3/04

    摘要: 本发明提供了一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法,在图像特征提取及自然语言特征提取的基础上,对输入图像和输入的自然语言,根据自然语言中所包含的关键词,将关键词对应图像区域i的特征fi、关键词加权后的语句特征qi以及对应基于关键词的视觉上下文特征ci一共三个特征进行级联;级联后的特征输入多层感知机进行分类,获得分割结果。与现有技术相比,图像与自然语言的特征提取,能够便于实现基于关键词的语言指示图像分割方法;本发明的语言指示图像分割方法,减少了对长语句的处理难度,提高了对象定位与识别的准确性,进而提高了语言指示图像分割精度。

    一种多尺度全卷积网络及视觉导盲方法和装置

    公开(公告)号:CN107397658B

    公开(公告)日:2020-06-19

    申请号:CN201710616545.9

    申请日:2017-07-26

    发明人: 李宏亮

    IPC分类号: G06N3/08 A61H3/06

    摘要: 本发明提供了一种多尺度全卷积网络及视觉导盲方法和装置,包括分类网络和检测网络,所述分类网络用于提取预置窗口的特征;所述检测网络用于给所述预置窗口打分及回归,采用多通道并联的结构,直接将1*1的卷积层直接进行特征融合,并将5*5的卷积拆分成两个3*3的卷积操作;对分类网络和检测网络进行训练生成多尺度全卷积网络,采用生成的多尺度全卷积网络实现对各类道路目标的检测;采用深度图生成方法,检测附近的一般障碍物,并计算出各类检测目标和障碍物与装置携带者之间的准确距离。与现有技术相比,能够搭载在一块携带性非常高的移动装置上实现,能够达到实时的检测速度,且在复杂场景下都能保持较高的检测效果。

    基于异质多任务学习深度监督离散哈希的图像检索方法

    公开(公告)号:CN109885716A

    公开(公告)日:2019-06-14

    申请号:CN201910119846.X

    申请日:2019-02-18

    发明人: 李宏亮 马雷

    IPC分类号: G06F16/583 G06F16/55

    摘要: 本发明公开了一种基于异质多任务学习深度监督离散哈希的图像检索方法,考虑判别性的实值特征及高质量的哈希码应该适合分类与检索任务,将实值特征空间分类任务与检索任务的学习及二值特征空间分类任务及检索任务的学习融入只有一个输出的单流(one-stream)网络框架,充分利用异质空间中多个任务的相关信息,实现哈希码的紧致性、判别性的提升,提高哈希检索性能。

    一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法

    公开(公告)号:CN109063112A

    公开(公告)日:2018-12-21

    申请号:CN201810851990.8

    申请日:2018-07-30

    发明人: 李宏亮 马雷

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法,基于分类任务可以提高哈希码的判别性及聚合性和检索任务可以保留哈希码的语义相似性,将分类任务与检索任务融入只有一个输出的单流(one‑stream)框架里,充分利用语义监督信息,以提高哈希码的紧致性、判别性及保留哈希码的语义相似性;本发明方案构建了单流(one‑stream)网络框架,结合多任务学习的方法,提高了哈希检索性能。

    一种基于最小生成树的超像素分割方法、系统及存储设备

    公开(公告)号:CN108305258A

    公开(公告)日:2018-07-20

    申请号:CN201810093922.X

    申请日:2018-01-31

    发明人: 李宏亮 罗冰

    IPC分类号: G06T7/11

    摘要: 本发明提供了一种基于最小生成树的超像素分割方法、系统及存储设备,包括,获取图像的边缘谱信息,并结合图像像素的颜色信息,构建无向加权图G=(V,E,W)以表达四邻域的像素邻接关系;根据无向加权图G=(V,E,W),对应节点V={A,B,...,G}以及不同的边权重,得到最小生成树;将获取的最小生成树结构划分为一系列最小生成森林;对所述最小生成森林加入规则性约束并获取最终的区域分割。与现有技术相比,基于最小生成树的超像素分割方法,具有分割速度快,分割精度高,获取超像素分割区域规则等特点。

    一种多尺度全卷积网络及视觉导盲方法和装置

    公开(公告)号:CN107397658A

    公开(公告)日:2017-11-28

    申请号:CN201710616545.9

    申请日:2017-07-26

    发明人: 李宏亮

    IPC分类号: A61H3/06

    CPC分类号: A61H3/061

    摘要: 本发明提供了一种多尺度全卷积网络及视觉导盲方法和装置,包括分类网络和检测网络,所述分类网络用于提取预置窗口的特征;所述检测网络用于给所述预置窗口打分及回归,采用多通道并联的结构,直接将1*1的卷积层直接进行特征融合,并将5*5的卷积拆分成两个3*3的卷积操作;对分类网络和检测网络进行训练生成多尺度全卷积网络,采用生成的多尺度全卷积网络实现对各类道路目标的检测;采用深度图生成方法,检测附近的一般障碍物,并计算出各类检测目标和障碍物与装置携带者之间的准确距离。与现有技术相比,能够搭载在一块携带性非常高的移动装置上实现,能够达到实时的检测速度,且在复杂场景下都能保持较高的检测效果。

    一种基于视频的实时检测行人的方法

    公开(公告)号:CN106446832A

    公开(公告)日:2017-02-22

    申请号:CN201610852086.X

    申请日:2016-09-27

    摘要: 本发明提供了一种基于视频的实时检测行人的方法。在检测阶段,利用标定过的双目摄像头采集视频,计算每帧图像的视差图;利用视差图将图像分为背景区域和非背景区域;利用上一帧检测结果来确定当前帧需要检测的候选区域,将同时满足既为非背景区域又为候选区域这两个条件的区域作为需要检测区域,后续过程只检测需要检测区域。能够快速准确检测行人的特征,相比传统的HOG等方法,方法复杂度更低、速度更快,能够满足实时准确检测要求。

    一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法

    公开(公告)号:CN109063112B

    公开(公告)日:2022-04-01

    申请号:CN201810851990.8

    申请日:2018-07-30

    发明人: 李宏亮 马雷

    IPC分类号: G06F16/58 G06F16/51 G06F16/55

    摘要: 本发明提供了一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法,基于分类任务可以提高哈希码的判别性及聚合性和检索任务可以保留哈希码的语义相似性,将分类任务与检索任务融入只有一个输出的单流(one‑stream)框架里,充分利用语义监督信息,以提高哈希码的紧致性、判别性及保留哈希码的语义相似性;本发明方案构建了单流(one‑stream)网络框架,结合多任务学习的方法,提高了哈希检索性能。