一种基于小波注意力和VMamba网络的颜色恒常性方法

    公开(公告)号:CN119579440A

    公开(公告)日:2025-03-07

    申请号:CN202411708317.0

    申请日:2024-11-27

    Abstract: 一种基于小波注意力和VMamba网络的颜色恒常性方法属于计算机视觉和图像增强领域。该方法采用设计的WA‑VMamba网络进行光照参数估计,进而采用估计出的光照参数进行颜色校正,得到标准光照下的校正图像。本发明将设计的小波注意力机制嵌入到VMamba中,构建了一个深度网络模型(简称WA‑VMamba),使得利用该网络既能有效提取全局信息,又能兼顾局部信息,具有更强的特征提取与表达能力,有助于提升光照参数估计的准确性。

    目标跟踪方法、装置、电子设备及存储介质

    公开(公告)号:CN114240994B

    公开(公告)日:2024-07-19

    申请号:CN202111302041.2

    申请日:2021-11-04

    Abstract: 本发明提供一种目标跟踪方法、装置、电子设备及存储介质。其中,目标跟踪方法包括:获取初始特征图像;所述初始特征图像包括目标对象;将所述初始特征图像输入到分类及回归网络中,分别得到分类特征图像和回归特征图像;对所述分类特征图像和所述回归特征图像进行位置信息处理,得到位置特征图像;对所述位置特征图像进行相关性处理,得到相关特征图像;基于所述相关特征图像,得到所述目标对象的目标跟踪信息。本发明能够提高目标跟踪的精确度。

    一种中医舌色噪声标注样本的自动识别与清洗方法

    公开(公告)号:CN114037011B

    公开(公告)日:2024-05-28

    申请号:CN202111316442.3

    申请日:2021-11-08

    Abstract: 本发明公开了一种中医舌色噪声标注样本的自动识别与清洗方法,通过对比预测标签与人工标注标签的概率关系,采用两种不同的筛选策略,实现对舌色噪声标注数据的准确、自动识别与清洗。本发明将人工标注标签称为硬标签,将通过模型得到的标签预测概率称为软标签,将预测概率最大值对应的标签称为伪标签。本发明利用深度网络模型进行样本标签的预测,进而进行噪声样本的自动识别和筛选,结果更加客观、准确。另外,整个过程没有专家的参与,不需要耗费人力,同时降低了人为带来噪声的可能性,提高了噪声标注样本识别的准确率;在模型训练前进行数据集的处理,使得处理后的数据集可以适用于其他分类模型。

    一种基于空间拓扑约束网络的人脸解析方法

    公开(公告)号:CN117935332A

    公开(公告)日:2024-04-26

    申请号:CN202410019754.5

    申请日:2024-01-05

    Abstract: 本发明提供了一种基于空间拓扑约束网络的人脸解析方法,针对人脸数据集存在遮挡、原始图像模糊的问题,本发明关注定位图像中显著性区域的研究。该方法首先将自建人脸数据集图像裁剪成最优尺寸,作为网络的输入,通过阶段聚合注意力模块有效地从所有其他通道图以及相关的空间位置中获取特征响应,更好地融合深度特征的高层和低层信息,并且增强特征表达能力;通过空间拓扑约束网络生成人脸每个类区域的空间分布以及边缘分布,有效地提高了边界语义识别能力和处理难以区分的类别以及遮挡能力;通过解析解码子网络,在联合损失函数下预测得到精细化人脸解析结果。该方法有效对人脸遮挡、赘生物等异常情况,解析结果更为鲁棒,且边缘定位准确性更高。

    一种基于注意力模型的非均匀运动模糊图像自适应复原方法

    公开(公告)号:CN111275637B

    公开(公告)日:2024-01-30

    申请号:CN202010040751.1

    申请日:2020-01-15

    Abstract: 一种基于注意力模型的非均匀运动模糊图像自适应复原方法属于数字图像/视频信号处理领域。本发明设计了一个结合注意力机制的条件生成对抗网络。生成网络为一个编解码结构,编码阶段采用密集连接网络提取特征,提高特征利用率,加强特征的传播,并加入视觉注意力机制,使网络对于不同的输入图像能够自适应地调解网络参数,动态去除图像模糊。本发明可以从非均匀运动模糊图像中有效复原出清晰图像。该技术在目标跟踪、交通检测、军事侦察等领域具有广泛的应用前景。

    一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法

    公开(公告)号:CN116452849A

    公开(公告)日:2023-07-18

    申请号:CN202310212637.6

    申请日:2023-03-08

    Abstract: 一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法属于计算机视觉图像处理领域。本发明使用特征解耦重建增强模块,通过实例归一化学习不变性特征,将归一化过滤后的特征通过通道注意力解耦出与定位任务相关的特征重建回不变性特征,以此有效提高模型的表示能力,提高对光照、天气等变化的鲁棒性;综合考虑定位算法的特征表达能力和计算效率,采用多通道并行的膨胀卷积,在较小计算量增加的情况下增加感受野大小,从而获得不同尺度的信息,丰富特征的表达能力,以此设计视觉地理定位算法,来提取尺度更丰富、表示能力更好的深度特征,以实现更好的定位结果。

    一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法

    公开(公告)号:CN110544264B

    公开(公告)日:2023-01-03

    申请号:CN201910799709.5

    申请日:2019-08-28

    Abstract: 一种基于3D深监督机制的颞骨关键解剖结构小目标分割方法属于医学影像处理领域,本发明设计了一个3D的编码解码网络,编码阶段采用密集连接网络提取特征,加强特征的传播,提升特征的利用率,不同的密集连接网络块之间设计了迁移模块,迁移模块采用3D多池化特征融合策略,融合max pooling和average pooling后的特征。解码阶段引入3D深监督机制隐藏层和主干网络的输出结果共同指导网络训练。本发明针对颞骨关键解剖结构体积微小,可供提取特征不足的问题,采用3D网络充分利用颞骨CT的空间的信息,实现颞骨关键解剖结构锤骨、砧骨、耳蜗外壁、耳蜗内腔、外半规管、后半规管、前半规管、前庭以及内听道的自动分割。

    选择性注意线索指导的不良主播检测方法、装置及电子设备

    公开(公告)号:CN109492124B

    公开(公告)日:2022-03-25

    申请号:CN201811397237.2

    申请日:2018-11-22

    Abstract: 本申请实施例提供一种选择性注意线索指导的不良主播检测方法、装置及电子设备,该方法包括:获取待测直播音视频;基于所述待测直播音视频生成第二耦合特征;计算所述第二耦合特征与预存的各类型的影音数据对应的第一耦合特征之间的汉明距离,其中,所述第二耦合特征采用与所述第一耦合特征相同的方式生成;将与所述第二耦合特征的汉明距离小于预设阈值的第一耦合特征所对应的影音数据的类型判定为所述待测直播音视频的类型,并输出。由此,可靠地检测出直播音视频的类型。

Patent Agency Ranking