一种基于自适应解码器的目标检测方法及装置

    公开(公告)号:CN114612716A

    公开(公告)日:2022-06-10

    申请号:CN202210227694.7

    申请日:2022-03-08

    申请人: 南京大学

    摘要: 一种基于自适应解码器的目标检测方法及装置,构建一个目标检测模型AdaMixer,包括网络配置阶段、训练阶段以及测试阶段,配合骨干网络得到的不同大小的特征图组合成3D特征空间,在其中进行高效的特征采样,并通过自适应地配合查询量的空间信息和位置信息完成对采样特征的增强,实现目标检测任务。本发明通过对不同图片查询量的自适应模块,有效利用查询量中的信息,避免了冗余网络结构,节省了计算量,使网络快速稳定收敛。引入了3D特征空间的采样,对位置信息和语义信息进行高效的编码,能更好地配合自适应模块,灵活、高效、快速、准确地完成目标检测任务。

    一种基于多模态特征融合的人体骨架动作识别方法

    公开(公告)号:CN113761975A

    公开(公告)日:2021-12-07

    申请号:CN202010498569.0

    申请日:2020-06-04

    申请人: 南京大学

    发明人: 武港山 周蕾

    IPC分类号: G06K9/00 G06K9/62

    摘要: 一种基于多模态特征融合的人体骨架动作识别方法,在存储空间、计算资源受限的条件下,利用骨架序列和少量图片信息对视频中人体动作进行分类,实现动作识别。本发明通过对每个待分类视频只抽取一帧作为图片信息,为静态动作类别引入了环境信息,但是没有增加太大的存储、计算压力,将由视频得到骨架序列信息和图片信息这两种模态信息进行融合,实现对视频中人体动作识别,并进一步提出了特征替换训练过程和KL散度的约束方法,进一步提高识别的精度。与现有其他动作识别方法相比,本发明在不同数据集的测试精度指标上都取得了很好的效果。

    一种基于信念图增强网络的人体姿态估计方法

    公开(公告)号:CN113128446A

    公开(公告)日:2021-07-16

    申请号:CN202110471854.8

    申请日:2021-04-29

    申请人: 南京大学

    摘要: 一种基于信念图增强网络的人体姿态估计方法,构建一个信念图增强网络,对人体姿态估计基础模型输出的信念图提高分辨率;在训练信念图增强网络时,根据训练集中的标注信息生成低分辨率信念图标签和高分辨率信念图标签,低分辨率信念图标签对应基础模型的输出分辨率,高分辨率信念图标签对应信念图增强网络的输出分辨率,训练时利用MESLoss函数分别计算两种分辨率下预测结果与真实标签之间的均方误差,求二者的加权和,并以此推导信念图增强网络各层参数的梯度,使用Adam优化器进行监督训练。本发明能够改善现有人体姿态估计方法中最终输出的信念图分辨率较低的现状,达到提高预测精确度的目的,而且不会带来参数量和浮点运算量上的显著提升。

    一种基于多层级回归的人群密度估计方法

    公开(公告)号:CN110210423A

    公开(公告)日:2019-09-06

    申请号:CN201910488308.8

    申请日:2019-06-05

    申请人: 南京大学

    摘要: 一种基于多层级回归的人群密度估计方法,将人群图像划分为不同拥挤程度的人群区域及背景,对各个划分出的区域采用不同的密度回归器生成相应的密度图,并最终合并各个密度图生成整幅图像的密度图用于人数估计。本发明利用多层级回归处理不同拥挤程度的人群图像区域,有效解决了不同场景下人的外观、尺寸、面积等变化引起的人群密度估计准确率受限问题,提高了人群密度估计的准确率。

    一种基于轻量级全卷积神经网络的实时图像语义分割方法

    公开(公告)号:CN110110692A

    公开(公告)日:2019-08-09

    申请号:CN201910410492.4

    申请日:2019-05-17

    申请人: 南京大学

    发明人: 武港山 沈佳凯

    IPC分类号: G06K9/00 G06K9/34 G06K9/62

    摘要: 本发明公开了一种基于轻量级全卷积神经网络的实时图像语义分割方法,包括以下步骤:1)使用轻量级神经网络的设计元素构建全卷积神经网络:网络共包含特征拓增阶段、特征处理阶段、综合预测阶段三个阶段,其中特征处理阶段使用多感受野特征融合结构、多尺寸卷积融合结构、感受野扩增结构;2)训练阶段:利用语义分割数据集训练网络,使用交叉熵函数作为损失函数,使用Adam算法作为参数优化算法,在过程中采用在线难例样本再训练策略;3)测试阶段:将测试图像输入网络,得到语义分割结果。本发明在控制模型规模的同时,通过调整网络结构,适配语义分割任务,获得了适合在移动端平台运行的,高精度的实时语义分割方法。

    一种基于似物性推荐算法的图像匹配方法

    公开(公告)号:CN106056575B

    公开(公告)日:2019-03-29

    申请号:CN201610293356.8

    申请日:2016-05-05

    申请人: 南京大学

    发明人: 武港山 蒋哲翎

    IPC分类号: G06T7/33 G06T7/90

    摘要: 一种基于似物性推荐算法的图像匹配方法,包括预处理部分和检索匹配部分,利用似物性推荐算法得到原始图像中的候选框,再分别计算模板图像和每个候选框的颜色方向直方图,其中候选框的直方图利用事先计算好的积分图来快速得到,然后比较各候选框与模板图像直方图之间的相似度,相似度高于给定阈值,则匹配成功。本发明整幅图像的匹配可以在0.3秒左右完成,在实时性上远高于现有技术方法,同时方向直方图与颜色直方图是适应旋转和尺度变化的,所以本发明方法对旋转和尺度变化是鲁棒的。

    一种三维地震体数据的实时光线投射体绘制方法

    公开(公告)号:CN103198514B

    公开(公告)日:2015-08-26

    申请号:CN201310097258.3

    申请日:2013-03-25

    申请人: 南京大学

    发明人: 鲁林 唐杰 武港山

    IPC分类号: G06T15/08 G01V1/32

    摘要: 一种三维地震体数据的实时光线投射体绘制方法,使用CUDA并行技术进行体数据块是否可见的判断,再使用CUDA并行技术判断体数据块当前分辨率是否需要提高,以上两步从低分辨率开始循环,逐步提高分辨率,直到满足分辨率要求、显存不足无法提高分辨率或已经达到最高分辨率为止,以确定最终渲染时体数据块各自所使用的分辨率;在渲染处理中使用多线程技术对需要调度的体数据块进行I/O调度,同时使用CUDA并行技术对调度进来的数据进行光线投射体绘制。相对于现有的光线体绘制方法,本发明可适用于海量体数据实时体绘制、可以在一个场景下有多个分辨率等级的数据参与绘制,计算速度快、成像效果好。

    基于快速局部匹配的立体图像对象分割方法

    公开(公告)号:CN103714549A

    公开(公告)日:2014-04-09

    申请号:CN201310745606.3

    申请日:2013-12-30

    申请人: 南京大学

    IPC分类号: G06T7/00

    摘要: 基于快速局部立体匹配的立体图像对象分割方法,求取图像上的可靠匹配点,运用Delaunay三角化进行插值求视差;然后构建图,将像素作为顶点,像素与其八近邻的连线作为图的边,边的权值由相连像素的颜色和视差信息决定;采用Kruskal最小生成树策略根据边的权值确定相连两个像素所在区域是否属于同一分割区域,如果是则合并,否则保持不变;对得到的分割区域,判断是否属于需要分割出来的对象,取出分割区域,得到最终的对象。本发明方法快速有效,能够有效处理物体边缘等视差不连续区域;能够快速地分割出多个对象,本发明时间效率高,分割效果好,能够满足快速自动对象分割的需求。

    一种联合检测与生成的循环一致性人-物交互检测方法

    公开(公告)号:CN118799914A

    公开(公告)日:2024-10-18

    申请号:CN202410769608.4

    申请日:2024-06-14

    申请人: 南京大学

    摘要: 一种联合检测与生成的循环一致性人‑物交互检测方法,由HOI检测器与文生图模型Stable Diffusion构建一个联合训练框架来对HOI检测器进行训练,仅用经过训练的HOI检测器进行人‑物交互检测;所述联合训练框架中,构建循环一致性网络利用Stable Diffusion对HOI检测器提取的特征进行反向操作,来重建恢复原始图像的视觉内容,以提高HOI检测器提取实例特征的质量,同时通过知识蒸馏将Stable Diffusion的特征知识传递给HOI检测器的编码器,并在训练中通过Stable Diffusion对人‑物交互数据进行标签补全和样本扩增。本发明方法能够改善HOI模型的泛化能力,解决了HOI数据集规模较小、数据分布不均匀导致的长尾问题以及标注不完整或缺失的漏标问题,提高检测性能。

    基于提示调优的师生架构半监督学习小样本图像分类方法

    公开(公告)号:CN118608828A

    公开(公告)日:2024-09-06

    申请号:CN202410641021.5

    申请日:2024-05-22

    申请人: 南京大学

    IPC分类号: G06V10/764 G06V10/774

    摘要: 基于提示调优的师生架构半监督学习小样本图像分类方法,基于CLIP模型构建提示调优基础模型,根据调优基础模型配置共享结构和初始化参数的师生模型,由老师模型为无标签数据生成伪标签,对学生模型输入标签数据和伪标签数据对双模态提示参数进行提示调优训练,分别按不同权重计算标签数据和伪标签数据的损失函数并更新梯度,所述权重随训练变化,学生模型更新后更新老师模型的参数,更新后的老师模型再重新生成伪标签数据集进行训练,最后利用训练得到的老师模型实现图像样本的分类。本发明将半监督学习引入CLIP模型的提示调优方法中,通过增加伪标签数据辅助训练,改善了模型在可用训练样本极少的情况下的训练效果,具有较强的实用性。