一种基于结构相似度的非局部注意力学习方法

    公开(公告)号:CN114972812A

    公开(公告)日:2022-08-30

    申请号:CN202210624115.2

    申请日:2022-06-02

    IPC分类号: G06V10/74 G06N3/04 G06N3/08

    摘要: 本发明提供一种基于结构相似度的非局部注意力学习方法,可广泛应用于机器视觉领域,例如图像分割、图像分类、图像识别等。现有非局部注意力方法简单计算不同空域位置的两个信号内积作为二者的相似度度量,并不完全符合人类视觉感知特点。针对这一问题,本发明提出利用结构相似度衡量不同空域位置的信号之间的相似度,在非局部注意力学习方法中充分考虑人类视觉对信号感知三个重要因素,即亮度、对比度和结构。其次,本发明进一步提出多尺度结构相似度度量策略,在不同尺度上更为全面地进行信号相似度度量。因此,本发明能够取得比现有非局部注意力方法更好地注意力学习效果。

    一种基于结构相似度的非局部注意力学习方法

    公开(公告)号:CN114972812B

    公开(公告)日:2024-06-18

    申请号:CN202210624115.2

    申请日:2022-06-02

    IPC分类号: G06V10/74 G06N3/0464 G06N3/08

    摘要: 本发明提供一种基于结构相似度的非局部注意力学习方法,可广泛应用于机器视觉领域,例如图像分割、图像分类、图像识别等。现有非局部注意力方法简单计算不同空域位置的两个信号内积作为二者的相似度度量,并不完全符合人类视觉感知特点。针对这一问题,本发明提出利用结构相似度衡量不同空域位置的信号之间的相似度,在非局部注意力学习方法中充分考虑人类视觉对信号感知三个重要因素,即亮度、对比度和结构。其次,本发明进一步提出多尺度结构相似度度量策略,在不同尺度上更为全面地进行信号相似度度量。因此,本发明能够取得比现有非局部注意力方法更好地注意力学习效果。

    基于双分支Transformer网络的属性与图像跨模态行人再辨识方法及装置

    公开(公告)号:CN116416645A

    公开(公告)日:2023-07-11

    申请号:CN202310199941.1

    申请日:2023-03-03

    摘要: 本发明公开了一种基于双分支Transformer网络的属性与图像跨模态行人再辨识方法及装置,获取行人属性和行人图像,行人图像来自行人注册图像集;构建双分支Transformer网络,并对双分支Transformer网络训练,得到属性与图像跨模态行人再辨识模型,双分支Transformer网络包括同型的属性Transformer分支和图像Transformer分支;将行人属性和行人图像输入属性与图像跨模态行人再辨识模型,分别通过属性Transformer分支和图像Transformer分支提取得到属性特征和图像特征;将属性特征与图像特征进行相似度比对,得到行人属性对应的再辨识结果。属性Transformer分支和图像Transformer分支都属于同型的Transformer结构,有利于控制文本属性和行人图像在特征空间中的模态异质性问题,从而提升属性‑图像跨模态行人再辨识准确性。

    基于多代理相似度聚合的跨模态行人再辨识方法

    公开(公告)号:CN115620343A

    公开(公告)日:2023-01-17

    申请号:CN202211386276.9

    申请日:2022-11-07

    IPC分类号: G06V40/10 G06V10/74 G06V10/82

    摘要: 本发明提供一种基于多代理相似度聚合的跨模态行人再辨识方法,用于解决昼夜光照差异大而带来的白天可见光图像与夜晚红外图像匹配困难的问题。因此,本发明为每个类别分配多个可学习的代理,获得多代理相似度,并设计多代理相似度聚合机制,实现跨模态行人再辨识。一方面,本发明为每个类别学习多个代理,可以更好地刻画由于数据跨模态引起的剧烈类内差异;另一方面,本发明设计聚合机制,学习最佳的多代理相似度聚合方式,提升跨模态行人再辨识的准确性。因此,本发明可广泛应用于智慧城市、智慧交通以及智慧安防中的智能视频监控系统。

    基于池化正交融合的面部色素斑分类方法及装置

    公开(公告)号:CN118334733B

    公开(公告)日:2024-09-24

    申请号:CN202410757576.6

    申请日:2024-06-13

    摘要: 本发明公开了一种基于池化正交融合的面部色素斑分类方法及装置,涉及图像识别领域,包括:构建面部色素斑分类模型并训练,得到经训练的面部色素斑分类模型,面部色素斑分类模型中,利用深度骨干网络对色素斑图像进行特征提取,得到特征映射,池化正交融合模块中,先验平均池化分支用于提取特征映射中的空间全局信息,获得具有空间稳定性的先验池化特征,后验可学习池化分支借助可学习权重挖掘特征映射中的空间分布信息,获得空间敏感性的后验可学习池化特征,利用正交融合模块对先验池化特征和后验可学习池化特征进行正交融合,得到正交融合特征并输入到第一全连接层和Softmax函数层,输出预测类别概率。本发明解决散射分布斑点分类难的问题。

    一种基于语义偏好挖掘的行人再辨识方法

    公开(公告)号:CN118196840B

    公开(公告)日:2024-08-09

    申请号:CN202410610290.5

    申请日:2024-05-16

    申请人: 华侨大学

    摘要: 本发明公开了一种基于语义偏好挖掘的行人再辨识方法,涉及人工智能、机器视觉领域,包括:利用预训练的语义分割模型将行人图像处理为语义分割图,将语义分割图空间划分为若干部件语义块,计算不同语义在语义分割图与部件语义块中的比例,根据不同语义的比例对部件语义块分组进行语义对齐,获得各部件语义块分组对应的部件序号;基于部件序号对部件特征分组,利用自注意网络将各部件特征组投影到公共嵌入空间并进行偏好挖掘,继而利用偏好信息对各部件特征组进行自适应聚合,增强行人再辨识准确性。

    一种基于3D-Gradient引导的屏幕内容视频编码码率控制方法

    公开(公告)号:CN113949872B

    公开(公告)日:2024-06-25

    申请号:CN202111320458.1

    申请日:2021-11-09

    申请人: 华侨大学

    IPC分类号: H04N19/147 H04N19/70

    摘要: 本发明涉及一种基于3D‑Gradient引导的屏幕内容视频编码码率控制方法,属于视频编码领域。本方法采用3D‑Gradient滤波器同时提取屏幕内容视频序列空域和时域的边缘结构特征以及运动信息,将屏幕内容中空域和时域特征进行融合,获取最终的像素级复杂度因子。通过像素级复杂度因子计算CTU级复杂度因子CF进行CTU级的目标比特分配。利用当前编码帧的参考帧以及重建帧的相似度结合目标比特进行率失真模型的构建,实现目标比特,引导码率控制模型的生成。本发明提出的屏幕内容视频编码码率控制方法能够提高码率控制精度,明显改善重建视频序列的率失真性能,在一定程度上降低视频编码时间复杂度。

    一种基于前景感知动态部件学习的行人再辨识方法

    公开(公告)号:CN117456560B

    公开(公告)日:2024-03-29

    申请号:CN202311775203.3

    申请日:2023-12-22

    申请人: 华侨大学

    摘要: 本发明公开了一种基于前景感知动态部件学习的行人再辨识方法,涉及人工智能、机器视觉领域,包括:将浅层特征映射解码为前景能量图,利用交叉熵优化前景能量图,使其趋于真实前景标签,再将前景能量图空间划分为若干部件能量块,用各个部件能量块代表相应的浅层特征映射块的当前重要性;结合当前重要性和历史重要性对各浅层特征映射块进行综合重要性计算并排序,根据综合重要性排序优先选择高综合重要性的浅层特征映射块参与行人再辨识模型训练,从而减少来自背景区域的低综合重要性的浅层特征映射块参与行人再辨识模型训练的机会,达到抑制背景区域对行人辨识的干扰,提升行人再辨识准确性,可广泛应用于智慧城市场景中的城市安防系统。