一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法

    公开(公告)号:CN115661597A

    公开(公告)日:2023-01-31

    申请号:CN202211335800.X

    申请日:2022-10-28

    Abstract: 该发明公开了一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法,属于多模态目标检测领域。本发明中采用两个教师网络,一个学生网络,两个教师网络分别用可见光和红外图片进行训练,然后采用定位蒸馏(Localization Distillation)的方法将知识蒸馏到学生网络,学生网络的输入为可见光和红外图片拼接(Concat)在一起。三个网络都采用YOLOv5,结构完全一致。另外,通过对每个批量(Batch)数据在教师网络中的检测结果进行评价,通过检测指标动态的调整蒸馏损失的权重。本发明可以在不增加计算开销的基础上实现可见光和红外图像融合目标检测。

    基于多层属性引导的人群场景图像字幕描述方法

    公开(公告)号:CN115294353A

    公开(公告)日:2022-11-04

    申请号:CN202210837834.2

    申请日:2022-07-16

    Abstract: 本发明提出了一种基于多层属性引导的人群场景图像字幕描述方法,从输入图像中提取出区域级视觉特征、对应的位置信息以及人的动作特征;利用多层感知机得到完成特征嵌入映射后的视觉特征、位置特征和动作特征;通过设置的特征处理层与多层感知机依次得到全局视觉特征、局部特征、对象层次特征、动作层次特征和状态层次特征;利用全局视觉特征、对象层次特征、动作层次特征、状态层次特征和上一时刻的隐藏层状态得到融合特征;利用全局视觉特征、融合特征和上一时刻的语义特征得到当前时刻的语义特征;最后根据当前时刻的语义特征预测当前单词的概率分布并输出。本发明提取不同的层次人群属性特征,从而生成更具有人群特定的生动细节的描述。

    基于类间相似性的弱监督语义分割方法

    公开(公告)号:CN114677515A

    公开(公告)日:2022-06-28

    申请号:CN202210442111.2

    申请日:2022-04-25

    Abstract: 本发明公开了一种基于类间相似性的弱监督语义分割方法,属于弱监督语义分割领域。本发明包括:基于每个类别的特征通过聚类方法将相似类进行合并得到新类,重新生成数据集中每个样本在新类上的标签;基于原始标签搭建分类网络,提取对应的类激活谱,将其与阈值比较获取判别性区域,从原图中擦除判别性区域,将其送入基于新标签建立的分类网络,完成对抗擦除模型的搭建;基于训练好的对抗擦除模型,提取类激活谱,依次经过类激活谱增强模块和融合模块的处理,得到最终的类激活谱,再将其与前景背景阈值比较得到伪标注,基于该伪标注对语义分割模型进行训练,得到训练好的分割模型。本发明提升了图像的弱监督语义分割的分割准确。

    一种基于改进神经网络的智能音乐生成方法及系统

    公开(公告)号:CN113423005B

    公开(公告)日:2022-05-03

    申请号:CN202110541902.6

    申请日:2021-05-18

    Abstract: 本发明公开了一种基于改进神经网络的智能音乐生成方法及系统,包括:构建数据集、视频帧图像初始特征提取、视频帧特征的时序关联、生成音频原始数据、网络训练与测试。本发明利用计算机快捷性、经济性的特点,设计了一种深度神经网络结构并对其进行训练,实现了对运动视频进行智能化处理并生成原始音频数据,进而合成配乐,解决了目前配乐制作难度大、时间与经济成本高的问题,同时建立了运动驱动的智能音乐生成功能系统,能够准确的对输入视频数据进行特征提取,生成质量较高的音乐并且实现音乐与运动场景相匹配,生成音乐的主观评分MOS>3.5,实现对体育运动等题材的视频进行快速、批量化配乐生成,使音乐制作的时间成本与经济成本减少一倍以上。

    一种基于属性分解的图像风格迁移方法

    公开(公告)号:CN113538216A

    公开(公告)日:2021-10-22

    申请号:CN202110667797.0

    申请日:2021-06-16

    Abstract: 本发明公开了一种基于属性分解的图像风格迁移方法,首先获取一张内容图像,将该图像输入到风格迁移网络模型结构中进行风格迁移处理,输出风格迁移后的图像,所述风格迁移网络模型结构包括两部分,第一部分是基于自动编码器的风格解耦网络,第二部分是基于CGAN的特征谱生成网络。本发明提出的方法对于传统风格迁移方式有极大的创新,引入属性解耦的方法,将风格视为解耦对象,实现新图像风格的创建与迁移,同时,其中隐变量引入了随机性,实现了多种新风格的产生。

    一种基于视频编码的单帧图像超分辨率方法

    公开(公告)号:CN113393377A

    公开(公告)日:2021-09-14

    申请号:CN202110541900.7

    申请日:2021-05-18

    Abstract: 本发明公开了一种基于视频编码的单帧图像超分辨率方法,利用视频编码中可以直接得到的先验信息,对图像的不同部分子块进行针对性的处理,利用复杂的网络处理纹理更复杂的子块,同时设计一个自适应卷积模块对不同编码模式的子块进行针对处理,使网络更有针对性,针对不同的纹理恢复出不同的细节信息,从而提高超分辨率结果的精度。本发明将少通道的网络的参数共享到深通道的网络中,即达到用一个主干网络的不同层数实现一整张图片的超分辨率过程,使用相对简单,浅层,少通道的网络处理相对大的、纹理更为平滑的子块,减少超分辨过程所需要的时间。

    一种基于全局对比度的矢量化显著检测方法

    公开(公告)号:CN102930542B

    公开(公告)日:2015-11-18

    申请号:CN201210424716.5

    申请日:2012-10-31

    Inventor: 李宏亮 许林峰

    Abstract: 本发明一种基于全局对比度的矢量化显著检测方法,包括步骤:1)提取图像中每个像素点的特征矢量,将图像中所有像素的特征矢量构成特征矩阵;2)对特征矩阵沿行方向求均值,得到图像的均值矢量;3)将特征矩阵的转置中每个元素取平方后沿行方向求和,将求和结果与特征矩阵的转置和均值矢量乘积的2倍相减得到图像的显著度矢量;4)将图像的显著度矢量形成该图像的显著谱。本发明相比现有的基于全局对比度的显著检测方法,更高效、计算复杂度低。

    一种基于文本监督的第一视角场景解析方法

    公开(公告)号:CN119296103A

    公开(公告)日:2025-01-10

    申请号:CN202411617566.9

    申请日:2024-11-13

    Abstract: 该发明公开了一种基于文本监督的第一视角场景解析方法,属于图像处理领域,特别是第一视角视觉场景解析领域。本发明提出了跨模态提示学习模块,引入视觉与文本可学习提示向量,针对在第三人称数据上预训练的视觉语言模型进行微调,使其能够应用于具有复杂目标关系的第一视角图像;此外,本发明还提出了表征知识迁移模块,将视觉语言预训练模型的特征级知识蒸馏到微调后的第一视角编码器中,提高第一视角模型的跨模态关联能力,从而基于类别文本对第一视角场景中的目标进行准确分割。本发明创新地提出了一种基于文本监督的第一视角场景解析方法,利用第一视角图像的类别文本生成对应的分割伪掩码以缓解像素级标注稀缺的问题。

Patent Agency Ranking