-
公开(公告)号:CN118397385A
公开(公告)日:2024-07-26
申请号:CN202410293412.2
申请日:2024-03-14
申请人: 南京大学 , 南京英麒智能科技有限公司
IPC分类号: G06V10/774 , G06V10/82 , G06V20/40 , G06N3/084
摘要: 一种基于关键帧采样的多目标跟踪模型训练加速方法,首先,采用混合片段长度策略和关键帧扩展片段采样,预处理得到训练数据;再次,在训练过程当中,基于滑窗得到各帧对数损失值的标准分数,实现视频帧难易度评估;最后,基于难易程度实现关键帧自适应区别化采样,提升训练速度。本发明的采样方式可以在避免设计复杂的采样递增策略的情况下,保证训练数据多样性,提出视频帧难易度评估以及关键帧自适应区别化采样,可以让模型更加注重于数据困难部分的训练,减少多目标跟踪当中数据冗余性的影响,在缩短训练时长的同时,有效提升模型性能。
-
公开(公告)号:CN118154644A
公开(公告)日:2024-06-07
申请号:CN202410333369.8
申请日:2024-03-22
申请人: 南京大学
IPC分类号: G06T7/246 , G06V10/764 , G06V10/62
摘要: 基于ID预测网络的在线多目标跟踪方法、设备及存储介质,构建一个ID预测网络,基于历史帧的目标特征及其ID标签以及当前帧的目标特征,预测当前帧目标的ID标签,使不同帧中的多个目标各自对应到一个ID标签,实现不同帧的目标关联,即多目标跟踪。本发明设计的ID预测网络可以根据历史轨迹信息,直接预测当前帧所有目标的ID标签,从而完成多目标跟踪过程中的前后目标和轨迹的关联流程,现有的基于检测的多目标跟踪算法往往对检测结果使用手工设计的启发式算法进行跟踪推理,相比之下,本发明的端到端训练的ID预测网络模块可以更好的直接从数据集中学习所需的多目标跟踪能力,具有更好的泛化能力,显著提升在复杂场景中的跟踪效果。
-
公开(公告)号:CN112183334B
公开(公告)日:2024-03-22
申请号:CN202011038812.7
申请日:2020-09-28
申请人: 南京大学
IPC分类号: G06V20/40 , G06V10/80 , G06V40/16 , G06T7/246 , G10L25/24 , G06F40/30 , G06F16/36 , G06F16/35
摘要: 一种基于多模态特征融合的视频深度关系分析方法,基于视频分幕和场景、人物识别的视觉、声音和文字特征融合网络,首先将输入视频根据场景、视觉和声音模型分为多个幕,并在每个幕上提取对应的声音和文字特征,然后根据输入的场景截图和人物截图识别出现在各幕中的位置,并对场景和人物提取对应的实体视觉特征,同时对每两个实体对计算联合区域的视觉特征;对于每个实体对,将幕特征、实体特征和实体对特征连接后通过小样本学习结合零样本学习预测每幕实体对间的关系,通过合并视频每幕上的实体关系,构建整个视频上的实体关系图。本发明利用实体关系图可以回答知识图填充、问题回答和实体关系路径三类深度视频分析问题。
-
公开(公告)号:CN117095049A
公开(公告)日:2023-11-21
申请号:CN202210518346.5
申请日:2022-05-13
申请人: 南京大学
摘要: 一种基于语义关键点检测的单目相机位姿估计方法,在已知的场景中利用深度学习的映射能力离线地学习一个视角下的场景先验,然后在同一个场景但视角不同的视频序列上进行在线相机位姿估计包括两个子系统:语义关键点匹配框架和融合匹配语义点的SLAM框架。本发明在ORB‑SLAM系统的基础上,使用语义关键点匹配框架得到二维到三维的语义匹配点对,改进位姿初始化流程和光束平差法流程,使得融合匹配语义点的SLAM框架能够利用场景先验进行位姿的估计。本发明能够利用场景的先验,显著提高位姿估计的精度的同时也具有很好的鲁棒性,同时也避免了单目SLAM系统的初始化困难问题和尺度不确定性问题。
-
公开(公告)号:CN113837238B
公开(公告)日:2023-09-01
申请号:CN202111026141.7
申请日:2021-09-02
申请人: 南京大学
IPC分类号: G06V10/764 , G06V10/774 , G06V10/40 , G06V10/82 , G06N3/045 , G06N3/0895
摘要: 一种基于自监督和自蒸馏的长尾图像识别方法,构建多阶段的训练框架训练特征提取网络,第一阶段在长尾分布采样下利用自监督训练特征提取网络,第二阶段在保留第一阶段特征提取网络权重的情况下,在类别平衡采样下微调特征提取网络的分类器,生成用于自蒸馏的软标签,第三阶段丢弃之前的权重,在长尾分布采用下利用软标签作为监督对特征提取网络进行自蒸馏联合训练,得到的特征提取网络用于长尾分布下的图像识别分类。本发明针对长尾数据的特征提取网络提出一种利用自监督和自蒸馏的多阶段训练方法,利用自监督方法对尾部类别得到充分的表征,同时利用自蒸馏的方法将头部类别的知识有效迁移到尾部类别中。
-
公开(公告)号:CN110135500B
公开(公告)日:2023-03-24
申请号:CN201910413779.2
申请日:2019-05-17
申请人: 南京大学
IPC分类号: G06V10/44 , G06V10/774 , G06V10/771
摘要: 一种基于自适应深度特征滤波器的多场景下目标跟踪方法,将原始图像的目标区域从RGB空间转换到颜色命名空间当中,减小颜色变化的干扰,然后计算目标区域的前景概率图,根据前景概率图使用前景区域提取到的特征进行训练,以缓解边界效应,有效抑制背景中的噪声,使得本发明能够自适应地提取目标特征。本发明使用多层深度特征分别在相应的相关滤波器中进行训练,并且自适应地根据跟踪效果、滤波器稳定性、历史响应等信息更新相应深度特征滤波器的权重,在不同场景中引导跟踪模型自适应地选择有用的深度特征,能够在多种复杂场景中鲁棒地跟踪目标。相比于现有技术,本发明具有鲁棒性高的优点,能够在多种复杂场景中准确地进行目标跟踪。
-
公开(公告)号:CN114897690A
公开(公告)日:2022-08-12
申请号:CN202210466344.6
申请日:2022-04-29
申请人: 南京大学
摘要: 一种基于串行高频注意力的轻量化图像超分辨率方法,构建一个串行高频注意力模块,由降维卷积、边缘检测卷积、升维卷积、批归一化层和Sigmoid层构成,通过为每个像素学习一个0到1的权重来加强卷积神经网络对图像高频边缘信息的恢复。本发明方法能够充分利用注意力机制,相比现有方法,本发明兼顾了性能和效率:采用可训练的拉普拉斯边缘检测算子大幅度增强注意力模块的性能,采用串行的结构和高效的算子来保障注意力模块的效率。本发明能够改善一般方法中重建的图像边缘信息模糊的问题取得更好的重建质量,并且相比目前最好的轻量化图像超分辨率方法,能够降低72%的最大显存占用,提升38%的推理速度。
-
公开(公告)号:CN112464875A
公开(公告)日:2021-03-09
申请号:CN202011450346.3
申请日:2020-12-09
申请人: 南京大学
摘要: 一种视频中的人‑物交互关系检测方法及装置,通过目标轨迹检测提取视频中主语和物体的时空轨迹,再由交互联合推理基于目标轨迹检测的结果识别人‑物交互关系HOI,交互联合推理从目标时空轨迹中提取多模特征,包括人和物体的融合语义特征、人体行为视觉描述特征和人‑物时空相对运动特征,使用多特征融合的方式进行联合推理,预测视频段上的人‑物交互动作,得到预测的交互类别标签,即人‑物交互关系。本发明提出了一种基于时空域的人‑物交互检测方法,通过从复杂的视频视觉场景中捕获场景的高级语义信息,成功发现、定位和分类视频中人‑物对及其之间的交互关系。
-
公开(公告)号:CN111985505A
公开(公告)日:2020-11-24
申请号:CN202010848981.0
申请日:2020-08-21
申请人: 南京大学
摘要: 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置,从输入图像中提取物体,并两两组合为物体对,计算相应的物体特征和联合特征,生成物体和物体对的视觉特征、语义特征和位置特征,经线性变换得到物体和物体对的兴趣特征,由此预测物体对兴趣度,并将物体对关系谓语的视觉特征、语义特征和位置特征经线性变换得到关系谓语的兴趣特征,预测物体间的关系谓语兴趣度;最后将物体对兴趣度和关系谓语兴趣度相结合得到视觉关系兴趣度,兴趣度高的视觉关系即为最终检测出的兴趣视觉关系。本发明在检测视觉关系的过程中能够以语义重要性为标准更合理地预测关系兴趣度,找出能够准确传达图像主体内容的兴趣视觉关系,具有良好的广泛性与实用性。
-
公开(公告)号:CN111445488A
公开(公告)日:2020-07-24
申请号:CN202010321025.7
申请日:2020-04-22
申请人: 南京大学
摘要: 一种弱监督学习自动识别和分割盐体的方法,使用Grabcut算法对盐体图片进行预处理,初步分割出盐体轮廓,得到训练集,再使用卷积神经网络建立弱监督分割模型,利用损失函数引导模型学习盐体的特征,通过迭代的方式不断修正训练集中的标注,所述标注指有盐和无盐两种标注,使训练集的标签逐像素更为准确,得到训练好的弱监督分割模型,用于分割待测图片中盐体位置轮廓。本发明实现机器自动准确识别出盐体是否存在及存在的位置和轮廓,在数据集标注不完整、不准确的情况下,能够学习盐体的特征,实现对盐体的高效准确分割。
-
-
-
-
-
-
-
-
-