-
公开(公告)号:CN113673489A
公开(公告)日:2021-11-19
申请号:CN202111225547.8
申请日:2021-10-21
Applicant: 之江实验室
Abstract: 本发明涉及计算机视觉及深度学习领域,尤其涉及一种基于级联Transformer的视频群体行为识别方法,首先采集生成视频数据集,将视频数据集经过三维骨干网络提取三维时空特征,选取关键帧图像空间特征图;对关键帧图像空间特征图进行预处理后送入人体目标检测Transformer,输出关键帧图像中的人体目标框;然后,映射筛选后人体目标框在关键帧图像特征图上所对应的子特征图,结合关键帧图像周围帧特征图计算query/key/value,输入群体行为识别Transfomer,输出群体级别时空编码特征图;最后,经过多层感知机对群体行为进行分类。本发明具有有效提高群体行为识别准确率的效果。
-
公开(公告)号:CN113516240A
公开(公告)日:2021-10-19
申请号:CN202110697462.3
申请日:2021-06-23
Applicant: 之江实验室
Abstract: 本发明涉及计算机视觉领域,涉及一种神经网络结构化渐进剪枝方法和系统,该方法包括:步骤S1:设定神经网络每层的裁剪率、剪枝标准及神经网络训练周期数;步骤S2:输入图片以训练神经网络,在一定训练周期内,每层裁剪率从零逐渐增加到设定的裁剪率,根据剪枝标准,确定每层的冗余信息并置为0;步骤S3:达到设定的裁剪率后,移除神经网络中的冗余信息,并重构原始的网络层;步骤S4:神经网络重构后,继续进行训练,直至达到设定的神经网络训练周期。本发明操作简单,步骤少,在正常神经网络训练过程中就能到达剪枝的目的,而且无需剪枝后的精调过程,因此可以大幅减少处理时间,相比现有技术在达到较高的裁剪率的同时能获得较高的性能。
-
公开(公告)号:CN113298890A
公开(公告)日:2021-08-24
申请号:CN202110527552.8
申请日:2021-05-14
Abstract: 本发明公开了非尺度混叠及边缘保留的图像多尺度分解方法及调色方法,在图像中,通过定义新型局部均值包络像素点,采取三次插值算法,获取自适应局部均值曲面,从而迭代操作获得多尺度图像分解,可以实现同时具有边缘保留和非尺度混叠双特性的图像多尺度分解,以得到含有不同尺度信息的高精度的精准的图像解析,对解析的各分量采用设定的线性或非线性算子操作,进一步可以实现灰度图像和彩色图像的多尺度调色处理。本发明的效果和益处是,提供了一种有效的同时具有边缘保留和非尺度混叠双特性的图像多尺度分解算法,可以同时实现无振铃现象和非尺度混合的图像分解以及在此基础上的多尺度调色应用。
-
公开(公告)号:CN112528960A
公开(公告)日:2021-03-19
申请号:CN202011588312.0
申请日:2020-12-29
Applicant: 之江实验室
Abstract: 本发明属于视频行为分析技术领域,涉及一种基于人体姿态估计和图像分类的吸烟行为检测方法,首先读取检测区域监控视频,对视频帧进行预处理和归一化,然后采用YoloV3目标检测方法进行人体框检测,得到人体框位置坐标,在视频帧上面进行剪裁,得到需要进行人体姿态估计的子图,再以所述子图作为输入,使用改进后的人体姿态估计的方法AlphaPose进行人体关键点检测提取,通过定位嘴部和左、右手腕关键点,截取相应的局部图像块,制作分类网络数据集,设计图像分类网络模型,进行网络训练,得到吸烟分类模型,再采用训练好的模型对实时图像进行分类判断,得到视频的吸烟行为检测结果。本发明较好的弥补了两种方法的不足,同时改进算法,提升了检测效率。
-
公开(公告)号:CN112257683A
公开(公告)日:2021-01-22
申请号:CN202011417659.9
申请日:2020-12-07
Applicant: 之江实验室
Abstract: 本发明公开了一种面向车辆运行轨迹监测的跨镜追踪方法,该方法包括采用生成对抗网络扩充车辆视频数据集,并在扩充后的数据集上训练基于轻量化卷积神经网络的车辆检测模型;将车辆检测模型部署到所有摄像头上,并创建摄像头间的位置关联字典;采用车辆检测模型提取摄像头中拍摄到的车辆的表观特征及在镜头内的连续位置,根据车辆的移动方向预测出车辆可能出现的下一组摄像头;将车辆的表观特征广播至下一组摄像头中,并根据表观特征在下一组摄像头中对车辆进行追踪,最终完成车辆的跨镜追踪。本发明所采用的跨镜追踪方法,能够实现对车辆的运行轨迹进行实时监测,当发现被监测车辆脱离预设路线时发出预警,可以协助监管人员快速排查被监测车辆。
-
公开(公告)号:CN111507317A
公开(公告)日:2020-08-07
申请号:CN202010613767.7
申请日:2020-06-30
Applicant: 之江实验室
Abstract: 本发明公开了一种基于视觉的旋转设备作业手套佩戴检测方法及系统,包括:获取生产车间中实时生成的监控视频图像,在监控视频图像中绘制凸多边形规则框,使得整个旋转设备落于规则框内;基于人体目标检测神经网络模型对监控视频图像进行人体目标检测,获得目标人体;基于人体骨骼关键点检测神经网络模型对目标人体进行人体关键点检测,获得处于规则框内的目标人体的双手关键点;对双手关键点进行区域分割,得到感兴趣区域,并对感兴趣区域进行初始分类;对初始分类后的感兴趣区域进行跟踪,并通过联合投票算法得到感兴趣区域的最终分类结果。本发明可以降低漏检,提高手套检测及分类的准确率,并通过多线程流水线处理模式降低整个处理过程的耗时。
-
公开(公告)号:CN113763471B
公开(公告)日:2024-11-08
申请号:CN202110997123.7
申请日:2021-08-27
IPC: G06T7/73 , G06T7/45 , G06T7/33 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于视觉的弹孔检测方法及系统,方法包括:S1,获取打靶弹孔图像数据集并进行弹孔标注;S2,构造一种卷积特征与纹理特征深度融合的超轻量化网络,并基于弹孔图像数据,进行模型训练得到检测模型;S3,基于训练得到的检测模型进行推理,获取单帧弹孔检测结果;S4,基于多帧检测结果,构建当前帧的弹孔积分图;S5,基于当前帧弹孔积分图与前一帧的弹孔积分图,进行匹配和帧差,获取当前帧的新增弹孔;系统包括:聚焦层、嵌套瓶颈层、卷积层,以及由单尺度目标回归子网络、纹理特征提取单元、特征融合与优选模块构成的特征融合与单尺度目标回归模块;本发明降低了资源消耗,且检测准确度、鲁棒性好。
-
公开(公告)号:CN118279610B
公开(公告)日:2024-08-30
申请号:CN202410704308.8
申请日:2024-06-03
Applicant: 之江实验室 , 中国科学院东北地理与农业生态研究所
Abstract: 本发明公开了一种基于图像表型匹配的大豆表型识别方法、电子设备、介质,包括:获取待识别的大豆图片;将其输入至预先训练好的图像编码器中提取得到图像特征,将图像特征输入至预先训练好的表型解码器中得到大豆图片获得表型结果;其中,图像编码器以及表型解码器的训练过程包括:获取大豆成熟期图像并对其设置表型标签和数组标签;将大豆成熟期图像及其对应的表型标签分别输入至图像编码器、表型编码器,从而训练图像编码器、表型编码器;固定表型编码器的网络权重;将表型标签输入至表型编码器提取得到表型特征,将表型特征输入至表型解码器提取得到表型结果识别特征,基于表型结果识别特征与数组标签间的差值从而反向传播优化表型解码器。
-
公开(公告)号:CN116703820B
公开(公告)日:2024-05-03
申请号:CN202310406884.X
申请日:2023-04-17
Applicant: 之江实验室 , 中国科学院东北地理与农业生态研究所
IPC: G06T7/00 , G06T7/70 , G06N3/0464 , G06N3/084 , G06V10/82 , G06V10/774
Abstract: 一种基于热力图的高密度豆粒计数及中心点定位方法,用高斯函数生成高斯核模板,结合已标记的豆粒中心点位置,生成用于豆粒计数的真值热力图;采用基于空洞卷积的CSRNet作为密度图估计模块,将原始图像与真值热力图输入到模型中计算得到与原始图像同大小的热力图,通过对比预测热力图与真值热力图的L2损失进行参数的学习,实现高质量的热力图估计。对于待测试图像,使用CSRNet预测热力图,再通过判断局部最大位置点,从热力图中获取得到所有中心点的位置坐标,并通过局部中心点热力图的值取整获得豆粒数。还包括一种基于热力图的高密度豆粒计数及中心点定位系统。本发明可提高豆粒计数模型在高密度、遮挡严重场景下的计数准确性。
-
公开(公告)号:CN117851883A
公开(公告)日:2024-04-09
申请号:CN202410006211.X
申请日:2024-01-03
Applicant: 之江实验室
IPC: G06F18/241 , G06F18/213 , G06F18/25 , G06F18/27 , G06V10/764 , G06V10/82 , G06N3/0455
Abstract: 本发明公开了一种基于跨模态大语言模型的场景文本检测与识别方法,该方法包括:获取多组具有真值标注的图像‑文本数据集;利用图像编码器对数据集中的图像进行特征提取与学习,得到图像模态的特征嵌入;将图像模态特征嵌入与对应真值标注的文本特征嵌入融合构造为图像及自然语言的多模态特征序列;将融合后的多模态特征序列输入大语言模型当中进行跨模态编解码,再进行自回归机制下的网络微调;将文本图像输入上述训练好的图像编码器与大语言模型当中,通过线性分类与类目查表的方式将网络输出翻译为当前图片当中所包含的文本目标的内容及位置,从而完成文本检测与识别任务。本发明实现方法简便,灵活鲁棒,适用范围广。
-
-
-
-
-
-
-
-
-