-
公开(公告)号:CN113536016B
公开(公告)日:2024-09-06
申请号:CN202110760740.5
申请日:2021-07-02
申请人: 江南大学
IPC分类号: G06F16/583 , G06F16/58 , G06F16/33 , G06F16/35 , G06N3/042 , G06N3/0464 , G06N3/045
摘要: 本发明公开了一种融合图卷积的跨模态检索方法,属于跨模态检索技术领域。所述方法通过为不同模态构建各自的模态图,图中每个节点代表该模态某一样本的原始特征,并利用图卷积根据近邻关系更新图中的节点特征,同时结合全连接编码特征,得到不同模态高度语义一致的融合编码特征。之后通过公共表征学习层的模态不变损失获得表示一致的公共表征,通过两个子网顶部的线性分类器增强各模态公共表征的语义辨识度,进一步提升了跨模态检索性能;通过在Wikipedia数据集和Pascal Sentence数据集上的实验证明,本申请方法相对于现有技术中性能最优的DSCMR方法,平均mAP值分别提高了2.3%和2.4%。
-
公开(公告)号:CN118196589A
公开(公告)日:2024-06-14
申请号:CN202410317956.8
申请日:2024-03-20
申请人: 江南大学
IPC分类号: G06V10/82 , G06N3/042 , G06N3/045 , G06N3/0895 , G06N3/096 , G06V10/80 , G06V10/74 , G06V10/764 , G10L25/03
摘要: 本发明公开了自适应多教师蒸馏下基于音频的目标检测方法及系统,属于目标检测技术领域。本发明首先加入声音模态,结合RGB、深度和红外三个教师模态,利用知识蒸馏的方式指导音频学生,提高面对复杂环境的鲁棒性;此外针对模态差异和教师模型检测性能不同的问题,设计了一个自适应多教师蒸馏框架,提出了基于角度的自适应多教师损失,利用教师和学生中间层特征间的潜在关系作为教师重要性权重的指标,利用余弦相似度计算加权后的教师网络和学生网络逻辑输出层的角度损失,抑制中间层特征可能带来的无用信息和噪声信息,降低标签噪声,最后在多模态视听检测MAVD数据集中对网络进行训练和测试,结果表明本发明的检测精度优于基线网络。
-
公开(公告)号:CN111860681B
公开(公告)日:2024-04-30
申请号:CN202010749955.2
申请日:2020-07-30
申请人: 江南大学
IPC分类号: G06V10/774 , G06V10/26 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种新的用于深度学习的困难样本的生成方法及应用,设计一种双向注意力机制自动生成困难样本,有助于深度模型跳出局部最优解,使模型的鲁棒性更强。该方法的注意力机制不仅能够强调突出前景目标,同时能够在一定程度上避免背景杂波的影响,使得遮挡的区域更加集中且生成的困难样本更具有对抗性,进而可提高了深度网络目标识别精度。
-
公开(公告)号:CN113361466B
公开(公告)日:2024-03-12
申请号:CN202110737860.3
申请日:2021-06-30
申请人: 江南大学
摘要: 本发明公开了一种基于多模态交叉指导学习的多光谱目标检测方法,属于多模态信息处理技术领域。所述方法包括:将成对多模态图片送入特征生成模块生成高低层特征,从中间层特征开始,成对多模态特征送入权重感知网络。权重感知网络输出各模态的加权特征,并将其分别返回另一模态的特征生成模块,从而将加权信息以联合交叉指导的方式逐步传输到下一层,建立模态间的长期依赖关系;然后融合特征输入下一阶段的权重感知网络,以加强不同阶段融合特征之间的联系,获得更具判别力的特征;最后提取不同尺度的特征层送入检测层,生成目标的位置和得分。该方法在KAIST数据集上获得77.16%的行人检测精度,行人平均漏检率下降至25.03%。
-
公开(公告)号:CN111275718B
公开(公告)日:2024-01-30
申请号:CN202010056068.7
申请日:2020-01-18
申请人: 江南大学
IPC分类号: G06T7/11 , G06N3/0464 , G06N3/08 , G06T7/194
摘要: 本发明公开了一种基于显著区域分割的衣物量检测及护色洗判别方法,属于智能制造及人工智能技术领域。本发明以视觉显著性区域分割作为解决问题的主要途径,并在分割网络中加入了多尺度特征聚合模块,以及循环残差优化模块,提高了分割效果,进而提高了衣物量检测精度;具体是利用洗衣机内拍摄的图片,通过设计视觉显著性判别网络,利用洗衣机内筒与衣物的视觉差异,精确分割出桶内衣物,在此基础上设计衣物量检测及护色洗判别方案,完成精确判别。
-
公开(公告)号:CN111539263B
公开(公告)日:2023-08-11
申请号:CN202010253595.7
申请日:2020-04-02
申请人: 江南大学
IPC分类号: G06V40/16 , G06V20/40 , G06V10/82 , G06N3/0475 , G06N3/045
摘要: 本发明公开了一种基于聚合对抗网络的视频人脸识别方法,属于视频人脸识别技术领域。所述方法采用由聚合网络、判别网络和识别网络构建得到的聚合对抗网络,聚合网络与判别网络形成对抗学习,以竞争的方式使生成的图像和目标集静态图像更加接近;通过识别网络在高维特征空间计算感知损失,使得生成的图像和对应的目标集静态图像在感知性能上更加接近,提高了聚合网络的性能。判别网络采用softmax多维度输出的形式,除了能判断图像真假之外,还可以辨别图像的身份类别,使得生成图像的身份与真实值更接近,使得后续的识别更加精准且识别效率更高。
-
公开(公告)号:CN111753849A
公开(公告)日:2020-10-09
申请号:CN202010606592.7
申请日:2020-06-29
申请人: 江南大学
摘要: 本发明的目的是提供一种基于紧密聚合特征和循环残差学习的检测方法及系统,属于图像处理技术领域。系统包括紧密特征提取模块、所有特征聚合模块、循环残差优化模块,方法包括如下步骤:提取紧密卷积特征,将连续阶段的输出特征结合到一起,针对所有层提取的紧密卷积特征采用空洞空间金字塔池化模块实现多层特征外部信息聚合;在深度监督机制下,以残差学习的方式不断优化,对整体循环残差网络在三个视觉显著性检测数据集上进行测试,测试完成后即可使用所述基于紧密聚合特征的循环残差网络进行自然图像中视觉显著性检测的实际应用。本发明提高了视觉显著性检测在复杂场景下的检测效果,增强对背景噪声的抑制和检测区域的连续性、完整度。
-
公开(公告)号:CN110991311A
公开(公告)日:2020-04-10
申请号:CN201911188895.5
申请日:2019-11-28
申请人: 江南大学
摘要: 本发明公开了一种基于密集连接深度网络的目标检测方法,属于目标检测技术领域。本发明的基于密集连接深度网络的目标检测的方法将密集连接方式融合进yolo-tiny网络,增加其卷积层,改进特征提取网络。改进网络首先将输入图像归一化为固定大小,然后使用DenseBlock模块提取、融合各通道的特征,接着在不同的尺度上使用不同的先验框进行预测,完成目标的分类和定位。改进后的算法相比于原算法,精度提高了15%,且仍能达到实时检测的要求;模型大小也仅有44.7MB,能够满足实际使用中对于内存占用以及实时性的要求。
-
公开(公告)号:CN110009717A
公开(公告)日:2019-07-12
申请号:CN201910256680.6
申请日:2019-04-01
申请人: 江南大学
摘要: 本发明公开了一种基于单目深度图的动画人物绑定录制系统,属于视频人体姿态估计技术领域。该系统中,数据处理过程基于机器学习与深度学习框架,从单目深度图出发,利用三维信息深度学习网络,估计出图中人体关节点坐标,将人体关节点坐标估计值引入动画人物绑定录制系统,并采用过滤算法进行平滑处理,实现关节点与动画人物绑定录制系统中动画人物的绑定。通过利用三维信息深度学习网络实现对关节点坐标的估计,将关节点坐标估计值引入动画人物绑定录制系统中,使得对图中人体关节点坐标的估计值更加精确,从而在动画人物绑定录制,能够使得拍摄画面中人体动作准确体现在动画人物上,实现关节点与动画人物绑定录制系统中动画人物的精确绑定。
-
公开(公告)号:CN105447448B
公开(公告)日:2019-01-11
申请号:CN201510770266.9
申请日:2015-11-12
申请人: 江南大学
IPC分类号: G06K9/00
摘要: 本发明提供了一种基于高斯颜色距离的卡口车辆定位方法,该方法首先将图像分为4*4共16幅的子图像,计算每一幅子图像的灰度标准偏差,取标准偏差最小的三幅图像,基于灰度二值化对其进行进一步分割并计算分割后每部分像素的灰度标准偏差,将其中灰度标准偏差较小的部分的所有像素放入道路区域像素集合中,并从中提取出道路区域特征向量;然后对每一幅子图像进行k‑means聚类,提取每个聚类像素的特征向量,并计算该特征向量与道路区域特征向量的高斯距离,得到高斯距离图。对该图进行二值化并加以数学形态学处理,得到车辆目标区域。该方法准确率较高,定位精准高,运行时间少,可满足实际应用要求。
-
-
-
-
-
-
-
-
-