-
公开(公告)号:CN119339319A
公开(公告)日:2025-01-21
申请号:CN202411361683.3
申请日:2024-09-27
Applicant: 华中科技大学
IPC: G06V20/52 , G06V10/44 , G06V10/774 , G06V10/82 , G06V10/80 , G06N3/0455 , G06N3/0895
Abstract: 本申请属于计算机视觉和自然语言处理技术领域,具体公开了一种跨模态行人重识别方法、装置及电子设备,该方法包括:获取第一正负样本集合和第二正负样本集合;基于样本集合对跨模态行人重识别模型进行双边对比学习训练;其中,第一正负样本集合是通过将属于同一行人的图文样本组成正样本对以及将属于不同行人的图文样本组成负样本对所构建的;第二正负样本集合是通过将属于同一行人的同一种属性的细粒度文本特征和细粒度视觉特征组成正样本对以及将属于不同行人或不同种属性的细粒度文本特征和细粒度视觉特征组成负样本对所构建的。通过本申请能够实现跨模态行人重识别模型兼顾全局表征的学习的同时建模更细粒度的局部特征。
-
公开(公告)号:CN118229723A
公开(公告)日:2024-06-21
申请号:CN202410250369.1
申请日:2024-03-05
Applicant: 华中科技大学
Abstract: 本申请实施例提供一种基于多任务学习的抠图方法及装置,涉及计算机视觉技术领域,其中方法包括:获取待抠图的原始图像;将原始图像输入至预先训练好的多任务学习模型,获取多任务学习模型输出的透明度遮罩图作为抠图结果;其中,多任务学习模型包括共享编码器、语义分支模块、细节分支模块和基于亲和力的特征传播模块,语义分支模块包括语义分支特征提取模块和语义分支解码器,细节分支模块包括细节分支特征提取模块和细节分支解码器,特征传播模块嵌入语义分支解码器和细节分支解码器之间。本申请实施例在双解码器之间嵌入基于亲和力的特征传播模块,从而缓解传统多任务学习模型潜在的负迁移问题,使得整体模型达到更好的抠图性能。
-
公开(公告)号:CN116912139B
公开(公告)日:2024-04-26
申请号:CN202310818272.1
申请日:2023-07-04
Applicant: 华中科技大学
IPC: G06T5/50 , G06T5/70 , G06T5/60 , G06N3/0464 , G06N3/0475 , G06N3/094 , G06V10/764
Abstract: 本发明公开了一种基于生成对抗网络的噪声合成及其模型训练方法,属于计算机视觉技术领域。本发明第首先将噪声的合成过程分解为信号相关部分噪声合成和信号无关部分噪声合成,并将信号相关部分和信号无关部分噪声相加后得到合成噪声图像;再通过利用傅立叶卷积的方法来学习图像中噪声的频域和空间域信息并进行融合,利用融合信息对合成的噪声和真实的噪声进行分类判别;最后通过预训练的去噪模型对合成的噪声和真实的噪声分别进行去噪,并对去噪后的图像进行正则化约束,由此实现合成模型的收敛。本发明方法所合成的噪声图像更符合真实噪声分布的噪声图像。
-
公开(公告)号:CN112200045B
公开(公告)日:2024-03-19
申请号:CN202011059137.6
申请日:2020-09-30
Applicant: 华中科技大学
IPC: G06V20/13 , G06V10/40 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于上下文增强的遥感图像目标检测模型建立方法及应用,属于图像处理技术领域,包括:基于神经网络建立待训练的目标检测模型,用于对遥感图像进行目标检测,并对其进行训练,得到基于上下文增强的遥感图像目标检测模型;目标检测模型中,各模块分别用于:提取遥感图像的多尺度特征图Fs;提取Fs的全局上下文信息,得到MA;分别增强Fs中的边界信息和类别信息,得到#imgabs0#和#imgabs1#分别捕捉#imgabs2#和#imgabs3#中通道间的信息关联,得到通道权重Wd和Wc;根据Wd将MA和#imgabs4#融合,得到边界信息增强的特征图#imgabs5#根据Wc将MA和#imgabs6#融合,得到类别信息增强的特征图#imgabs7#将Fs、#imgabs8#以及#imgabs9#融合,得到特征图#imgabs10#对#imgabs11#进行目标检测。本发明能够提高遥感图像目标检测的精度。
-
公开(公告)号:CN117649580A
公开(公告)日:2024-03-05
申请号:CN202311580534.1
申请日:2023-11-23
Applicant: 华中科技大学
IPC: G06V10/80 , G06V10/82 , G06V20/56 , G06V10/20 , G06V10/764 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于场景可见性的3D语义占据预测方法、系统及介质,属于计算机视觉及自动驾驶技术领域,方法包括:构建双边特征融合模块,以对体素特征分别进行局部增强、自注意力全局增强后融合输出;将图像特征编码模块、2D‑3D视角转换模块、双边特征融合模块、占据解码模块和语义解码模块依次连接得到3D语义占据预测模型;构建可见性掩码生成模块,用于将一定范围的3D场景的所有体素分为可见体素和不可见体素,构建监督可见体素预测结果、不可见体素预测结果的一对一交叉熵监督损失结构、3D邻域块分布损失结构,结合损失结构和样本集训练3D语义占据预测模型,以用于后续预测。提高了对当前场景语义占据预测的准确度。
-
公开(公告)号:CN116229512A
公开(公告)日:2023-06-06
申请号:CN202310176476.X
申请日:2023-02-27
Applicant: 华中科技大学
IPC: G06V40/10 , G06V10/762 , G06V10/764
Abstract: 本发明公开了基于跨摄像头自蒸馏的行人重识别模型建立方法及其应用,属于行人重识别领域,包括:利用特征提取网络提取行人图片的特征后聚类,标注全局伪标签,按摄像头将聚类类别划分为多个子聚类,标注局部伪标签;标注完成后得到训练集;构建包含特征提取网络以及与摄像头一一对应的多个分类器的监督网络,各分类器分别根据特征进行分类,得到分类概率分布;利用训练集对监督网络进行训练;训练损失包括分类损失和蒸馏损失,分别表示同摄像头分类概率分布与局部伪标签之间的差异,以及跨摄像头分类概率分布与同摄像头分类概率分布之间的差异;重复以上步骤,直至特征提取网络收敛,输出该网络。本发明能够提高无监督行人重识别的准确度。
-
公开(公告)号:CN116188307A
公开(公告)日:2023-05-30
申请号:CN202310136152.3
申请日:2023-02-20
Applicant: 华中科技大学
IPC: G06T5/00 , G06V10/26 , G06V10/54 , G06V10/56 , G06V10/77 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了适用于全天的图像低照度增强和语义分割联合方法和系统,属于计算机视觉技术领域。本发明首次将低照度增强和语义分割结合在一起,整个网络采用端到端的训练方式,增强任务和分割任务通过分享底部的层学习一些共有的低层次的特征,共享信息,相互补充,提升两者的表现;通过将增强网络和语义分割网络联合优化,增强网络对图像增强的结果会在下游特征提取网络和两任务分支信息的引导下进行重构,同时语义分割网络学习低照度图像增强中恢复的结构细节特征和颜色特征,提高语义分割网络的精度;既能对低光图像进行增强从而辅助驾驶员对低光环境的感知,又能从视觉任务的角度获得语义分割结果,对夜间数据和白天数据同时具有较强的适应性。
-
公开(公告)号:CN111461162B
公开(公告)日:2023-04-07
申请号:CN202010005939.2
申请日:2020-01-03
Applicant: 华中科技大学
IPC: G06V10/764 , G06V10/774 , G06V10/25 , G06V10/82
Abstract: 本发明公开了一种零样本目标检测模型及其建立方法,属于模式识别领域。具体包括:根据可见类RoI视觉特征、高斯随机噪声以及可见类的语义嵌入向量,训练IoUGAN;将不可见类的语义嵌入向量输入IoUGAN,获取不可见类的视觉特征;用不可见类的视觉特征训练零样本分类器;将零样本分类器与特征提取器、框回归器结合,建立零样本目标检测模型。IoUGAN用于接收不可见类的语义嵌入向量,生成不可见类的视觉特征训练零样本分类器;IoUGAN包括CFU、FFU和BFU;本发明获取的零样本目标检测模型根据输入的不可见类的测试样本,可准确识别目标的位置以及类别,并且实用性也较强。
-
公开(公告)号:CN114913546A
公开(公告)日:2022-08-16
申请号:CN202210457706.5
申请日:2022-04-27
Applicant: 华中科技大学
Abstract: 本发明公开了一种人物交互关系检测方法及系统,属于计算机视觉技术领域。现有的人物交互关系检测方法需要用一个共享的预测器同时检测人、物体和它们对应的交互关系,会造成实例级和交互关系级在注意力视野上的不一致。为此,本发明提出一种并行推理网络,其同时包含了两个分别针对实例级定位和交互关系级语义理解的独立预测器。前者通过感知实例的末端区域从而聚焦于实例级的定位;后者扩散视野到交互关系区域,从而更好地理解交互关系级语义。并且本发明的实例级预测器的实例级查询向量和关系级预测器的交互关系级查询向量是一一对应的关系,因此它们之间并不需要任何实例与关系的匹配程序,从而大大减轻了计算负担。
-
公开(公告)号:CN111461129B
公开(公告)日:2022-08-02
申请号:CN202010253715.3
申请日:2020-04-02
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于上下文先验的场景分割方法及系统,属于模式识别领域。方法包括:构建场景分割网络;该网络包括特征提取模块、特征聚合模块、上下文先验模块和特征融合模块;前两个模块依次对输入图像进行特征提取和特征聚合;上下文先验模块,对聚合得到的特征进行学习得到上下文先验图,上下文先验图学习得到类内先验和类间先验,将其与特征聚合模块的输出进行加权,对应得到类内特征和类间特征;特征融合模块,将特征提取模块输出的特征图、类内特征和类间特征进行级联融合和上采样后输出;将待分割场景图像输入训练好的场景分割模型,得到分割结果。本发明能够清楚地捕获类内特征和类间特征,有效提高了场景分割的准确度。
-
-
-
-
-
-
-
-
-