一种基于对比学习与多模态对齐的视觉问答方法

    公开(公告)号:CN115481277B

    公开(公告)日:2025-04-08

    申请号:CN202211167934.5

    申请日:2022-09-23

    Abstract: 该发明公开了一种基于对比学习与多模态对齐的视觉问答方法,属于视觉问答领域,该方法在分布不平衡的视觉问答数据集下实现鲁棒的视觉问答。现有的基于数据增强的鲁棒视觉问答方法往往基于反事实样本增强,并把反事实样本作为数据增广添加入训练中,但并未在特征和预测层次中构建区分反事实样本的过程,未深入挖掘样本之间的关系。本发明提出了基于对比学习与多模态对齐的视觉问答方法来解决视觉问答中的语言偏见问题,通过在特征和预测层面进行对比学习来降低模型的复杂度,提高视觉问答模型的泛化能力,从而实现在语言偏见场景下鲁棒的视觉问答。

    一种基于跨模态融合的视频行为识别方法

    公开(公告)号:CN116311525A

    公开(公告)日:2023-06-23

    申请号:CN202310292682.7

    申请日:2023-03-23

    Abstract: 本发明提供一种基于跨模态融合的视频行为识别方法,包括以下步骤:对视频流进行下采样处理,将下采样后的各帧图像划分为像素块,采用线性投射层计算出图像特征向量输入Transformer空间编码器得到每帧视频的图像特征序列;对惯性运动传感器数据进行分段处理,逐段地对数据采用线性映射升维再输入Transformer时序编码器传感器特征序列;将图像特征序列作为键和值向量,将传感器特征序列作为查询向量输入带掩码Transformer时间编码器得到时序融合后的多模态特征,将多模态特征输入多层感知机MLP,由MLP输出视频识别的结果。本发明通过空间编码的Transformer和时间编码的Transformer联合地从视频流数据和惯性运动传感器数据中提取时空语义特征和人体运动特征,并基于跨模态编码的Transformer方法完成行为识别。

    一种基于滤波器权重聚类的用于目标检测的CNN快速剪枝方法

    公开(公告)号:CN116245164A

    公开(公告)日:2023-06-09

    申请号:CN202310249525.8

    申请日:2023-03-15

    Abstract: 本发明提供一种基于滤波器权重聚类的用于目标检测的CNN快速剪枝方法,包括目标检测模型初始化步骤;重要性评分的指数滑动平均处理步骤得到各个滤波器的重要性评分的滑动平均值;阈值计算步骤:计算卷积层的重要性评分,再将重要性评分最低的卷积层作为本次剪枝的目标卷积层;计算目标卷积层中计算其各个滤波器的重要性评分的方差,从而得到目标卷积层的重要性评分阈值;剪枝步骤:对目标卷积层的滤波器参数向量进行聚类;在目标卷积层的每个簇中,对重要性评分的滑动平均值最低且重要性评分的滑动平均值低于重要性评分阈值的滤波器进行剪枝。本发明在保证整体剪枝效果不降低的条件下,提升了用于目标检测的卷积神经网络滤波器剪枝的效率。

    一种基于深度学习的盐体语义分割方法及语义分割系统

    公开(公告)号:CN110930409B

    公开(公告)日:2022-10-14

    申请号:CN201910998936.0

    申请日:2019-10-18

    Abstract: 本发明公开了一种基于深度学习的盐体语义分割方法及语义分割模型,采用预处理模型做基础模型进行特征提取,得到的特征图经过分类监督模块预测图片有盐与否作为辅助监督加速收敛,同时监督盐体分割分支模块输出的含盐图片分割结果和整体分割分支模块输出的所有图片分割结果,边缘预测模块输出边缘预测结果,组成混合损失有效提高盐体分割精度,最终得到较好的语义分割结果。语义分割模型中每级上采样的特征图经过特征融合模块,将每级上采样的特征图与上一级上采样特征图级联,这样逐级加强特征通道信息的密集获取,更好的利用每级上采样的特征图信息,更好的融合高层的语义信息和底层的空间信息。

    一种基于特征对比损失的年龄估计方法

    公开(公告)号:CN115063862A

    公开(公告)日:2022-09-16

    申请号:CN202210731136.4

    申请日:2022-06-24

    Abstract: 该发明公开了一种基于特征对比损失的年龄估计方法,属于计算机视觉领域。该方法首先选择注意力机制作为特征提取网络的基本结构,并使用了基于注意力机制的偏移窗口变换网络作为特征提取网络的主要结构,用于从面部图像中提取鲁棒的年龄特征;然后设计了用于计算特征之间相对距离的距离估计网络,通过基于特征的对比损失引导特征空间保留标签空间的序约束关系,使得尾部特征能够利用头部特征的信息,进而提升尾部数据的预测准确度,从而解决年龄估计中的长尾分布问题。

    一种基于属性分解的图像风格迁移方法

    公开(公告)号:CN113538216B

    公开(公告)日:2022-03-01

    申请号:CN202110667797.0

    申请日:2021-06-16

    Abstract: 本发明公开了一种基于属性分解的图像风格迁移方法,首先获取一张内容图像,将该图像输入到风格迁移网络模型结构中进行风格迁移处理,输出风格迁移后的图像,所述风格迁移网络模型结构包括两部分,第一部分是基于自动编码器的风格解耦网络,第二部分是基于CGAN的特征谱生成网络。本发明提出的方法对于传统风格迁移方式有极大的创新,引入属性解耦的方法,将风格视为解耦对象,实现新图像风格的创建与迁移,同时,其中隐变量引入了随机性,实现了多种新风格的产生。

Patent Agency Ranking