一种基于多属性驱动Transformer的图像自动裁剪方法和装置

    公开(公告)号:CN117058389A

    公开(公告)日:2023-11-14

    申请号:CN202311087792.6

    申请日:2023-08-28

    摘要: 本发明公开了一种基于多属性驱动Transformer的图像自动裁剪方法和装置,使用Next‑ViT作为主干网络进行全局特征图的提取,基于此构建主题分支、构图分支和裁剪分支;在主题分支中学习图像的主题属性从而得到主题属性激活图;在构图分支中学习图像的构图属性从而得到构图属性激活图,对构图属性激活图与主题属性激活图进行融合得到多属性激活图;在裁剪分支中设置锚点获取锚点位置特征图,并利用全局关系推理模块得到偏移量特征图,合并锚点位置特征图和偏移量特征图得到裁剪框特征图,归一化多属性激活图得到锚点权重,利用锚点权重对裁剪框特征图进行加权得到预测的裁剪框。本发明通过自动裁剪方法得到高质量裁剪图像,有效改善图像的美学质量。

    基于多任务学习与全局循环卷积的微表情识别方法及装置

    公开(公告)号:CN116030516A

    公开(公告)日:2023-04-28

    申请号:CN202211618464.X

    申请日:2022-12-15

    摘要: 本发明公开了一种基于多任务学习与全局循环卷积的微表情识别方法及装置,先对训练数据集进行预处理,得到固定长度的扩增帧序列,计算相邻帧间光流得到光流序列,标注人脸五官的五点特征点坐标;再构建卷积神经网络模块I调整扩增帧序列的帧尺寸及通道数;再构建全局循环卷积模块II提取全局特征;再构建包括光流估计、人脸特征点回归与三维卷积神经网络微表情分类预测在内的多任务学习模块III,进行预测。本发明采用端到端的深度学习框架联合学习人脸微表情识别、光流估计和特征点回归,利用任务间的关联性促进微表情识别,能够有效识别人脸微表情在三维时空中的运动变化情况,实现人脸微表情识别系统构建。

    一种针对视频目标分割的注意力引导的对抗性攻击方法

    公开(公告)号:CN114494959A

    公开(公告)日:2022-05-13

    申请号:CN202210080615.4

    申请日:2022-01-24

    摘要: 本发明公开了一种针对视频目标分割的注意力引导的对抗性攻击方法,首先使用特征提取器提取视频帧的特征图;然后构建多级特征空间注意力模块,获得空间注意力图;将空间注意力图与特征图串联起来,得到增强特征图,并对增强特征图进行下采样;构建反卷积神经网络,基于下采样后的增强特征图生成原始视频序列的对抗性扰动;将生成的对抗性扰动添加到原始视频序列中产生对抗样本;给定初始帧掩码,将对抗样本输入经典的单样本视频目标分割网络中得到最终预测掩码。本发明提供对抗性攻击方法借助注意力机制和增强特征图生成对抗性扰动,能够针对视频目标分割任务进行对抗性攻击,实现将目标的所有像素进行错误分类。

    一种基于自然图像对称性感知的脊柱侧弯识别方法及装置

    公开(公告)号:CN118762074A

    公开(公告)日:2024-10-11

    申请号:CN202410850833.0

    申请日:2024-06-27

    摘要: 本发明公开了一种基于自然图像对称性感知的脊柱侧弯识别方法及装置,先对人体背部的原始RGB图像进行水平翻转,通过特征提取网络获得对称性特征;再通过对称特征匹配模块,先对对称性特征进行特征融合获得融合特征,再使用注意力机制获得对称感知特征,最后通过拼接卷积操作获得对称匹配特征;最后将多类别分类任务转换为序数回归任务,通过序数回归模块同时预测脊柱侧弯严重等级和细粒度角度范围。本发明采用端到端的深度学习框架学习脊柱侧弯分级与角度估计,利用基于注意力机制的视觉注意力网络学习脊柱侧弯图像对称性特征,并将序数回归问题转换为多个二分类子问题,实现了脊柱侧弯严重性分级与角度联合估计系统构建。

    一种面向自监督视频目标分割的黑盒攻击方法

    公开(公告)号:CN115393776A

    公开(公告)日:2022-11-25

    申请号:CN202211148006.4

    申请日:2022-09-20

    IPC分类号: G06V20/40 G06V10/82

    摘要: 本发明公开了一种面向自监督视频目标分割的黑盒攻击方法,基于亲和矩阵的自监督视频目标分割模型学习视频序列的特征表示从而实现强大的像素对应关系。首先基于初始化随机产生的对抗扰动,构建针对单帧、双帧和多帧的对比损失,进行迭代优化;然后设计特征损失增强黑盒攻击所生成对抗样本的可转移性;采用像素级损失使生成的对抗样本噪声不可感知;构建多路径聚合模块获得迭代优化的对抗性扰动并将其添加到原始视频帧产生对抗样本;最终将对抗视频输入自监督视频目标分割网络得到最终预测掩码。本发明对自监督视频目标分割模型的黑盒攻击方法的研究识别了分割算法的脆弱性,能够进一步提升自监督视频目标分割任务的安全性和鲁棒性。

    基于自适应注意力与时空关联的面部动作单元识别方法及装置

    公开(公告)号:CN114842542A

    公开(公告)日:2022-08-02

    申请号:CN202210606040.5

    申请日:2022-05-31

    摘要: 本发明公开了一种基于自适应注意力与时空关联的面部动作单元识别方法及装置,先从视频数据中抽取模型训练所需要的原始连续图像帧组成训练数据集,再对原始图像帧进行预处理得到扩增图像帧序列,再构建卷积神经网络模块I提取扩增图像帧的分层多尺度区域特征,再构建卷积神经网络模块II进行面部动作单元自适应注意力回归学习,再构建自适应时空图卷积神经网络模块III学习面部动作单元时空关联,最后构建全连接层模块IV进行面部动作单元识别。本发明采用端到端的深度学习框架学习动作单元识别,利用面部动作单元之间的相互依赖关系以及时空相关性,能够有效识别面部肌肉在二维图像中的运动情况,实现面部动作单元识别系统构建。

    一种基于注意力多模态特征融合的无监督RGB-T目标跟踪方法

    公开(公告)号:CN114494354A

    公开(公告)日:2022-05-13

    申请号:CN202210138232.8

    申请日:2022-02-15

    IPC分类号: G06T7/246 G06N3/08 G06N3/04

    摘要: 本发明公开了一种基于注意力多模态特征融合的无监督RGB‑T目标跟踪方法,先采用分层卷积神经网络来提取RGB图像和热红外图像的特征;再使用特征融合模块将来自不同水平及不同模态的特征进行同步融合;再对融合得到的特征进行两次前向跟踪得到响应图;接着,将融合特征逆序,原先的模板图作为搜索图,搜索图作为模板图,生成的响应图作为伪标签进行反向跟踪得到最终的响应图;然后,最小化反向跟踪得到的响应图与原始标签之间的一致性损失进行无监督训练;最后,将测试视频帧输入训练好的网络进行前向跟踪得到响应图即为预测的目标位置。本发明方法可以充分利用多层次、多模态信息并能发挥无监督学习的优势。

    一种基于属性感知关系推理的通用图像美学评估方法和装置

    公开(公告)号:CN114429460A

    公开(公告)日:2022-05-03

    申请号:CN202210080621.X

    申请日:2022-01-24

    摘要: 本发明公开了一种基于属性感知关系推理的通用图像美学评估方法和装置,用于提高通用图像美学评估模型的准确性。本发明首先利用卷积神经网络构建特征提取器,得到图像的全局特征图;并在全局特征图的基础上,通过学习图像的美学属性来生成属性感知特征图;然后利用自注意力机制构建属性关系推理模块,并进一步得到美学属性的关系特征图;最后把全局特征图、美学属性特征和属性关系特征图进行特征联合,同时对图像的美学分布进行建模预测;最终通过计算把美学分布转化成图像的通用美学分数;本发明可有效地评估待测试图像的通用美学分数,准确率高,并且本发明可以有效地筛选出符合大众审美的图像,易于应用在图像检索和图像增强等技术中。

    一种基于多模态层级Transformer的运动感知自监督RGBT跟踪方法

    公开(公告)号:CN117197187A

    公开(公告)日:2023-12-08

    申请号:CN202311169927.3

    申请日:2023-09-12

    摘要: 本发明公开了一种基于多模态层级Transformer的运动感知自监督RGBT跟踪方法,先采用ResNet50来提取RGB图像和热红外图像的特征,再使用MHTF模块捕捉通道上两种模态特征之间的远距离依赖关系,对融合得到的特征进行基于卷积的互相关操作,利用基于多头交叉注意力机制的分类增强分数图来辅助实现根据准确的分类,引入MAM模块记录搜索帧特征并提取相应的运动向量,并在网络模型训练期间使用这些向量来强化与当前搜索帧特征的一致性,最小化互相关操作及MAM模块得到的损失,最后将视频帧输入训练好的网络模型进行跟踪得到跟踪结果。本发明方法充分利了用可见光和热红外图像间的互补信息并能发挥自监督学习的优势。