一种文本引导的视频时序动作分割方法、设备及存储介质

    公开(公告)号:CN118334558A

    公开(公告)日:2024-07-12

    申请号:CN202410568280.X

    申请日:2024-05-09

    申请人: 南京大学

    摘要: 一种文本引导的视频时序动作分割方法、设备及存储介质,构建一个文本引导的视频时序动作分割模型,包括视频片段编码器、文本编码器、时序骨干网络和分类网络,首先由视频片段编码器提取视频片段特征,经时序骨干网络得到包含全局信息的时序特征,同时文本编码器对起始动作和终止动作的语言描述提取文本特征,将时序特征与文本特征进行时序上的模态对齐,以实现文本特征引导时序动作的分割,同时为了进一步缓解背景干扰带来的过分割问题,将时序特征进行时序上的可学习局部平滑,最后对得到的时序特征由分类得到分割结果。本发明通过标注文本引导的视频时序动作分割框架,增强了对于视频时序特征的约束,改善在强背景干扰下的分割性能。

    一种弱监督学习自动识别和分割盐体的方法

    公开(公告)号:CN111445488B

    公开(公告)日:2023-08-04

    申请号:CN202010321025.7

    申请日:2020-04-22

    申请人: 南京大学

    摘要: 一种弱监督学习自动识别和分割盐体的方法,使用Grabcut算法对盐体图片进行预处理,初步分割出盐体轮廓,得到训练集,再使用卷积神经网络建立弱监督分割模型,利用损失函数引导模型学习盐体的特征,通过迭代的方式不断修正训练集中的标注,所述标注指有盐和无盐两种标注,使训练集的标签逐像素更为准确,得到训练好的弱监督分割模型,用于分割待测图片中盐体位置轮廓。本发明实现机器自动准确识别出盐体是否存在及存在的位置和轮廓,在数据集标注不完整、不准确的情况下,能够学习盐体的特征,实现对盐体的高效准确分割。

    一种基于多源运动特征融合的时序自适应视频分类方法

    公开(公告)号:CN111209883B

    公开(公告)日:2023-08-04

    申请号:CN202010032965.4

    申请日:2020-01-13

    申请人: 南京大学

    摘要: 一种基于多源运动特征融合的时序自适应视频分类方法,包括生成训练样例阶段、网络配置阶段、训练阶段以及测试阶段,采用多源多尺度运动信息进行早期融合,融合包括原视频帧序列信息、段内局部帧间差以及全局段间特征差,并在融合过程中实现时序自适应调整策略,完成视频分类任务。本发明在融合多源运动信息的同时,通过时序自适应调整,适配视频分类任务,获得了鲁棒性强且精度高的视频分类方法,提出了融合全局、原有单帧信息、局部运动信息的方式,这种融合位于网络的浅层,使得相比于其他融合策略而言计算更加快速,且具有很好的移植性。

    一种基于多层级回归的人群密度估计方法

    公开(公告)号:CN110210423B

    公开(公告)日:2023-04-25

    申请号:CN201910488308.8

    申请日:2019-06-05

    申请人: 南京大学

    摘要: 一种基于多层级回归的人群密度估计方法,将人群图像划分为不同拥挤程度的人群区域及背景,对各个划分出的区域采用不同的密度回归器生成相应的密度图,并最终合并各个密度图生成整幅图像的密度图用于人数估计。本发明利用多层级回归处理不同拥挤程度的人群图像区域,有效解决了不同场景下人的外观、尺寸、面积等变化引起的人群密度估计准确率受限问题,提高了人群密度估计的准确率。

    一种基于峰值挖掘和过滤的弱监督实例分割方法

    公开(公告)号:CN115393580A

    公开(公告)日:2022-11-25

    申请号:CN202110565129.7

    申请日:2021-05-24

    申请人: 南京大学

    摘要: 一种基于峰值挖掘和过滤的弱监督实例分割方法,包括以下步骤:1)处理样本阶段;2)网络配置阶段;3)训练阶段;4)测试阶段。本发明设计的基于峰值挖掘和过滤策略引入特征融合、对抗擦除、聚类分析以增强峰值响应图的多样性和完整性,并通过迭代检索和置信度更新以检索更精确的分割掩膜。相比现有的弱监督实例分割方法,本发明的分割算法能够对图像中不同尺寸的物体实现更完整、准确的分割,从而有效地提升实例分割的精度。

    一种基于位置不确定性估计的单目标跟踪方法

    公开(公告)号:CN115393388A

    公开(公告)日:2022-11-25

    申请号:CN202110566900.2

    申请日:2021-05-24

    申请人: 南京大学

    摘要: 一种基于目标变换回归网络的精确目标跟踪方法,包括以下步骤:1)生成训练样例阶段;2)网络主体训练阶段;3)元分类器离线训练阶段;4)在线跟踪阶段;本发明设计的位置不确定性估计模块能够预测网络输出位置坐标的置信度信息,在后续阶段使用位置投票机制生成最终的预测框,从而能够给出精确的回归边界框。此外,本发明提出了一种基于元学习的在线更新策略,使得跟踪器能够适应目标外形与尺度变化,从而提高追踪器的鲁棒性。相比现有的单目标跟踪方法,本发明的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。

    一种融合多层空洞卷积与注意力机制的三维断层识别方法

    公开(公告)号:CN114972939A

    公开(公告)日:2022-08-30

    申请号:CN202210467937.4

    申请日:2022-04-29

    申请人: 南京大学

    发明人: 笪玥 唐杰 武港山

    摘要: 一种融合多层空洞卷积与注意力机制的三维断层识别方法,通过识别网络对输入的待预测图像输出断层识别结果,识别网络包括基于多层空洞卷积的H‑Unet网络和基于注意力机制的RA‑Unet网络,以三维合成地震数据体和其标签作为输入分别训练H‑Unet网络和RA‑Unet网络,将两个网络的预测结果相融合,对两个网络在每个像素点上的预测结果进行加权求平均,输出最后的预测图像作为识别结果。本发明针对三维地震断层识别特点,设计了基于多层空洞卷积的H‑Unet网络和基于注意力机制的RA‑Unet网络融合的识别网络,能够有效提取三维地震数据体的信息,识别断层及其宽度和局部细节。

    一种基于层次式时空区域合并的物体轨迹提议方法

    公开(公告)号:CN108898614B

    公开(公告)日:2022-06-21

    申请号:CN201810569130.5

    申请日:2018-06-05

    申请人: 南京大学

    IPC分类号: G06T7/215 G06T7/246

    摘要: 一种基于层次式时空区域合并的物体轨迹提议方法,在视频上通过匹配相邻帧的层次式视频帧区域构建视频的层次式时空区域表示,然后通过合并层次式时空区域来产生候选物体轨迹,最后使用一种融合了外观似物性和运动似物性的综合评分机制对候选物体轨迹进行评分,将评分最高的若干个候选物体轨迹作为最终的物体轨迹提议结果。本发明方法融合了视频中物体的外观信息和运动信息,利用整个视频的时空特性来生产物体轨迹提议结果,取得了比现有方法更好的效果。