-
公开(公告)号:CN118377933B
公开(公告)日:2024-08-16
申请号:CN202410802106.7
申请日:2024-06-20
Applicant: 南京信息工程大学
IPC: G06F16/783 , G06V20/40 , G06V20/62 , G06V10/74 , G06V10/80
Abstract: 本发明提供了基于文本生成图像技术的文本视频检索优化方法,本发明利用Stable Diffusion文本生成图像模型,通过对数据集中的文本信息进行图像生成,将生成的图像信息作为视频帧加入训练集,从而有效扩充数据规模。本发明还将考虑将关键帧信息反向生成文本信息,进一步丰富文本数据集。基于扩充的数据集,本发明将设计新的损失函数,综合考虑视频的细粒度与粗粒度特征,优化文本视频检索模型的训练过程,提升检索效果。本发明通过Stable Diffusion驱动的数据增强及优化的损失函数设计,能够有效解决现有文本视频检索研究中的数据缺乏和模型训练不充分等问题,为多媒体内容分析和检索应用提供新的技术支撑。
-
公开(公告)号:CN119888729A
公开(公告)日:2025-04-25
申请号:CN202510325263.8
申请日:2025-03-19
Applicant: 南京信息工程大学
IPC: G06V20/69 , G06N3/0464 , G06V10/80 , G06V10/82 , G06V20/70
Abstract: 本发明提供了一种基于YOLOv11改进的细胞实例分割方法和系统,所述方法包括:步骤1,构建改进后的YOLOv11网络,提取图像的多尺度特征,生成不同尺度的特征图;步骤2,在主干网络中引入多尺度通道注意力模块,并在多尺度通道注意力模块中引入新的注意力模块迭代优化初始融合;步骤3,整合编码器生成的层级特征图;步骤4,在颈部网络中添加尺度序列特征融合模块添加三重特征编码器模块,融合不同尺度的特征图;步骤5,在颈部网络中添加通道和位置注意力机制模块;步骤6,输出最终分割结果。本发明特别设计用于细胞实例分割,通过结合空间和尺度特征,提高了在处理细胞图像时的准确性和速度。
-
公开(公告)号:CN119723239A
公开(公告)日:2025-03-28
申请号:CN202411752104.8
申请日:2024-12-02
Applicant: 南京信息工程大学
IPC: G06V10/774 , G06V10/764 , G06V10/82 , G06V10/44 , G06V10/80
Abstract: 本发明提供了一种基于动态神经网络的目标检测方法和系统,所述方法首先对YOLOv7模型进行改进,使用多元卷积融合模块来替换骨干网络中的高效层聚合模块,然后在头部网络引入双向特征金字塔。最后,以两个改进后的YOLOv7模型作为基础模型,并结合智能路由器来构建动态目标检测模型。与常规的静态目标检测模型不同,本发明的动态目标检测模型能够根据图片复杂度来自适应的调整网络结构,对于简单的图片使用单一的网络进行检测保证检测的速度,而复杂的图片则经过两个网络处理来提高检测的精度。这种方法相比传统的目标检测方法具有更高的精度和更好的灵活性,能够在不丢失速度的情况下保持较高的精度。
-
公开(公告)号:CN119540725A
公开(公告)日:2025-02-28
申请号:CN202510027737.0
申请日:2025-01-08
Applicant: 南京信息工程大学
IPC: G06V10/82 , G06N3/0464 , G06N3/084 , G06V10/20 , G06V10/40 , G06V10/764 , G06V10/766 , G06V10/80
Abstract: 本发明提供了一种基于YOLOv11改进的下水道内部缺陷检测方法和系统,所述方法通过自适应特征融合模块实现多层次特征的动态加权融合,增强模型对小目标和复杂背景的检测能力;通过SENet注意力机制提高通道特征的选择性,降低背景干扰;引入MPDIoU损失函数改进边界框回归损失。改进的模型在裂痕、障碍物、腐蚀、变形等下水道缺陷的检测任务中性能显著优于原始YOLOv11,特别是在mAP50(平均精度)、Box精度(P)和召回率(R)等关键指标上均有显著提升。该发明可实现对下水道内部多类型缺陷的高效、精准检测,为下水道维护与管理提供了更优的解决方案。
-
公开(公告)号:CN118377933A
公开(公告)日:2024-07-23
申请号:CN202410802106.7
申请日:2024-06-20
Applicant: 南京信息工程大学
IPC: G06F16/783 , G06V20/40 , G06V20/62 , G06V10/74 , G06V10/80
Abstract: 本发明提供了基于文本生成图像技术的文本视频检索优化方法,本发明利用Stable Diffusion文本生成图像模型,通过对数据集中的文本信息进行图像生成,将生成的图像信息作为视频帧加入训练集,从而有效扩充数据规模。本发明还将考虑将关键帧信息反向生成文本信息,进一步丰富文本数据集。基于扩充的数据集,本发明将设计新的损失函数,综合考虑视频的细粒度与粗粒度特征,优化文本视频检索模型的训练过程,提升检索效果。本发明通过Stable Diffusion驱动的数据增强及优化的损失函数设计,能够有效解决现有文本视频检索研究中的数据缺乏和模型训练不充分等问题,为多媒体内容分析和检索应用提供新的技术支撑。
-
-
-
-