一种基于双偏置校准学习的低成本图像质量评价方法

    公开(公告)号:CN117437211A

    公开(公告)日:2024-01-23

    申请号:CN202311546553.2

    申请日:2023-11-20

    Abstract: 该发明公开了一种基于双偏置校准学习的低成本图像质量评价方法,属于图像处理领域的图像质量评估(Image Quality Assessment,IQA)领域。本发明创建了一个名为门控双偏置校准(GDBC)的模块,将双偏置表示为两个参数未知的潜在变量,包括LC‑MOS和LA‑MOS之间的主观偏置以及从LC‑MOS和LA‑MOS学习到的IQA模型之间的模型偏置;通过基于期望最大化的迭代优化,联合估计双偏置的参数,并通过门控双偏置校准(GDBC)模块自适应地抑制LC‑MOS的误导;对IQA数据集的理论分析和广泛实验,验证了所提出的GDBC方法的有效性,当每张图像可用的意见分数很少时,比如最少一人标注时,该方法仍然保证了最先进的性能。

    一种基于多尺度正负样本挑选的目标检测方法

    公开(公告)号:CN116229103A

    公开(公告)日:2023-06-06

    申请号:CN202310292680.8

    申请日:2023-03-23

    Abstract: 本发明提供一种基于多尺度正负样本挑选的目标检测方法,主干网络输出的每一层的预测特征谱通过平均池化完成下采样再统一大小到与最高层特征谱相加得到中间特征;再使用注意力机制得到最终的中间特征谱;再利用最终的中间特征谱得到各层的融合加强特征谱;将各层的融合加强特征谱分别输入至目标检测头,将特征谱的尺度值大于等于尺度选择阈值的层的IoU最大的k个锚点框设置为正样本,其余预测的锚点框设置为负样本;将正样本和负样本一起输入至分类分支,将正样本输入至回归分支;分类分支用于输出目标的类别,回归分支用于输出目标所在矩形框的位置坐标;优化了现有目标检测任务的正负样本挑选策略。

    一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法

    公开(公告)号:CN115661597A

    公开(公告)日:2023-01-31

    申请号:CN202211335800.X

    申请日:2022-10-28

    Abstract: 该发明公开了一种基于动态权重定位蒸馏的可见光和红外融合目标检测方法,属于多模态目标检测领域。本发明中采用两个教师网络,一个学生网络,两个教师网络分别用可见光和红外图片进行训练,然后采用定位蒸馏(Localization Distillation)的方法将知识蒸馏到学生网络,学生网络的输入为可见光和红外图片拼接(Concat)在一起。三个网络都采用YOLOv5,结构完全一致。另外,通过对每个批量(Batch)数据在教师网络中的检测结果进行评价,通过检测指标动态的调整蒸馏损失的权重。本发明可以在不增加计算开销的基础上实现可见光和红外图像融合目标检测。

    一种基于梯形卷积的不规则形状物体检测方法

    公开(公告)号:CN110334752B

    公开(公告)日:2022-11-08

    申请号:CN201910559601.9

    申请日:2019-06-26

    Abstract: 本发明提供一种基于梯形卷积的不规则形状物体检测方法,包括:1)先提取输入图像的特征谱;2)利用候选区域网络RPN得到初步的矩形候选区域;3)将矩形候选区域与输入图像的特征谱结合,得到输入图像中矩形候选区域特征后进入形边框调整步骤;4)梯形边框调整步骤:将矩形候选区域特征f1输入神经网络得到6个输出,分别代表区域中心点偏移量、宽高偏移量以及纵向两条边界与水平线的夹角;5)将矩形候选区域特征f1变换为梯形卷积特征谱f2:6)将梯形卷积特征谱f2作为检测步骤的输入特征来完成对输入图像的检测。本发明能够减少无关特征干扰,提高检测精度;梯形卷积引入参数较少,易于取得良好效果。

    基于多层属性引导的人群场景图像字幕描述方法

    公开(公告)号:CN115294353A

    公开(公告)日:2022-11-04

    申请号:CN202210837834.2

    申请日:2022-07-16

    Abstract: 本发明提出了一种基于多层属性引导的人群场景图像字幕描述方法,从输入图像中提取出区域级视觉特征、对应的位置信息以及人的动作特征;利用多层感知机得到完成特征嵌入映射后的视觉特征、位置特征和动作特征;通过设置的特征处理层与多层感知机依次得到全局视觉特征、局部特征、对象层次特征、动作层次特征和状态层次特征;利用全局视觉特征、对象层次特征、动作层次特征、状态层次特征和上一时刻的隐藏层状态得到融合特征;利用全局视觉特征、融合特征和上一时刻的语义特征得到当前时刻的语义特征;最后根据当前时刻的语义特征预测当前单词的概率分布并输出。本发明提取不同的层次人群属性特征,从而生成更具有人群特定的生动细节的描述。

    基于类间相似性的弱监督语义分割方法

    公开(公告)号:CN114677515A

    公开(公告)日:2022-06-28

    申请号:CN202210442111.2

    申请日:2022-04-25

    Abstract: 本发明公开了一种基于类间相似性的弱监督语义分割方法,属于弱监督语义分割领域。本发明包括:基于每个类别的特征通过聚类方法将相似类进行合并得到新类,重新生成数据集中每个样本在新类上的标签;基于原始标签搭建分类网络,提取对应的类激活谱,将其与阈值比较获取判别性区域,从原图中擦除判别性区域,将其送入基于新标签建立的分类网络,完成对抗擦除模型的搭建;基于训练好的对抗擦除模型,提取类激活谱,依次经过类激活谱增强模块和融合模块的处理,得到最终的类激活谱,再将其与前景背景阈值比较得到伪标注,基于该伪标注对语义分割模型进行训练,得到训练好的分割模型。本发明提升了图像的弱监督语义分割的分割准确。

    一种基于改进神经网络的智能音乐生成方法及系统

    公开(公告)号:CN113423005B

    公开(公告)日:2022-05-03

    申请号:CN202110541902.6

    申请日:2021-05-18

    Abstract: 本发明公开了一种基于改进神经网络的智能音乐生成方法及系统,包括:构建数据集、视频帧图像初始特征提取、视频帧特征的时序关联、生成音频原始数据、网络训练与测试。本发明利用计算机快捷性、经济性的特点,设计了一种深度神经网络结构并对其进行训练,实现了对运动视频进行智能化处理并生成原始音频数据,进而合成配乐,解决了目前配乐制作难度大、时间与经济成本高的问题,同时建立了运动驱动的智能音乐生成功能系统,能够准确的对输入视频数据进行特征提取,生成质量较高的音乐并且实现音乐与运动场景相匹配,生成音乐的主观评分MOS>3.5,实现对体育运动等题材的视频进行快速、批量化配乐生成,使音乐制作的时间成本与经济成本减少一倍以上。

Patent Agency Ranking