-
公开(公告)号:CN119203019A
公开(公告)日:2024-12-27
申请号:CN202411024976.2
申请日:2024-07-29
Applicant: 电子科技大学
IPC: G06F18/25 , G06V40/20 , G06V20/40 , G06F18/22 , G06F18/213 , G06V10/44 , G06V10/82 , G06N3/0455 , G06N3/096
Abstract: 该发明公开了一种基于视觉语言知识引入的零样本多模态第一视角行为识别方法,属于多模态行为识别领域。本发明首先将视觉模态输入预训练的CLIP视觉编码器提取视觉特征,将经过STFT变换的加速度计模态、陀螺仪模态频谱图提取对应的特征,文本通过预训练的CLIP文本编码器提取到文本特征。然后将视觉特征传入到适配器模块,将零样本知识与新的自适应特征知识进行动态结合,得到最终的视觉特征。加速度计模态、陀螺仪模态通过惯性传感器融合模块得到最终的惯性传感器特征。最后将文本、视觉、惯性传感器特征一同输入多模态融合模块,充分考虑不同模态间对齐的问题,有效地提升模态融合的效果。该方法在零样本多模态第一视角行为识别任务上表现令人满意。
-
公开(公告)号:CN118861602A
公开(公告)日:2024-10-29
申请号:CN202410951724.8
申请日:2024-07-16
Applicant: 电子科技大学
Abstract: 该发明公开了一种针对多源异构数据连续学习能力的评价系统,涉及深度学习中的连续学习领域。该系统包括:预处理模块、特征提取网络、分类器模块、混淆率计算模块、评价指标计算模块;将多源异构数据输入预处理模块,然后依次经过特征提取网络、分类器模块、混淆率计算模块、评价指标计算模块,由评价指标计算模块输出多源异构数据的连续学习能力评价指标;由于本发明于以往的评价指标不同,从多模态的角度和新旧任务之间混淆的角度进行思考,所以对于多模态连续学习方法的评价更加准确。
-
公开(公告)号:CN118196231B
公开(公告)日:2024-07-26
申请号:CN202410606980.3
申请日:2024-05-16
Applicant: 电子科技大学
IPC: G06F17/16 , G06T11/00 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 该发明公开了一种基于概念分割的终身学习文生图方法,属于计算机视觉领域。该方法首先构建了图片对应的包含类别的文本描述,将类别信息和图像输入到SAM中,从而把目标概念从训练图像中提取出来,再将分割后的图像输入到变分自动编码器中进行降维,然后将降维后的图像经过前向过程加噪得到和图像维度一致的噪声图像,再然后将该噪声图像作为U‑Net的输入并使用图像对应的文本描述作为概念的文本表示,目标是令网络能够预测出前向过程中所添加的真实高斯噪声,最后让加噪后的图像减去该噪声还原出原始的图像;本发明充分的发挥了概念分割的优势,有效的学习了多个不同的概念,具有良好的稳定性和泛化性,并提出了更加准确和客观的文生图模型评测方法。
-
公开(公告)号:CN118196231A
公开(公告)日:2024-06-14
申请号:CN202410606980.3
申请日:2024-05-16
Applicant: 电子科技大学
IPC: G06T11/00 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 该发明公开了一种基于概念分割的终身学习文生图方法,属于计算机视觉领域。该方法首先构建了图片对应的包含类别的文本描述,将类别信息和图像输入到SAM中,从而把目标概念从训练图像中提取出来,再将分割后的图像输入到变分自动编码器中进行降维,然后将降维后的图像经过前向过程加噪得到和图像维度一致的噪声图像,再然后将该噪声图像作为U‑Net的输入并使用图像对应的文本描述作为概念的文本表示,目标是令网络能够预测出前向过程中所添加的真实高斯噪声,最后让加噪后的图像减去该噪声还原出原始的图像;本发明充分的发挥了概念分割的优势,有效的学习了多个不同的概念,具有良好的稳定性和泛化性,并提出了更加准确和客观的文生图模型评测方法。
-
公开(公告)号:CN117952162A
公开(公告)日:2024-04-30
申请号:CN202311750182.X
申请日:2023-12-19
Applicant: 电子科技大学
Abstract: 该发明公开了一种基于高效视频记忆网络的视频域知识记忆与迁移方法,本发明涉及视频图像处理领域。本发明旨在源视频域模型的监督下将更多视频隐式地存储在大小与存储空间预算一致的高效视频记忆网络中,并通过蒸馏损失将源视频域知识迁移到目标视频域模型中。首先通过时空编码器对类别特征均值和帧索引进行编码,而后将编码后的时空特征送入重构解码器中得到重构帧图像,并在像素级别和特征级别上对高效视频记忆网络进行监督。最后,源视频域知识通过高效视频记忆网络进行存储,同时计算源视频域知识在源视频域模型和目标视频域模型的表达之间的蒸馏损失,将知识迁移到目标视频域上。
-
公开(公告)号:CN115063862B
公开(公告)日:2024-04-23
申请号:CN202210731136.4
申请日:2022-06-24
Applicant: 电子科技大学
IPC: G06V40/16 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/084
Abstract: 该发明公开了一种基于特征对比损失的年龄估计方法,属于计算机视觉领域。该方法首先选择注意力机制作为特征提取网络的基本结构,并使用了基于注意力机制的偏移窗口变换网络作为特征提取网络的主要结构,用于从面部图像中提取鲁棒的年龄特征;然后设计了用于计算特征之间相对距离的距离估计网络,通过基于特征的对比损失引导特征空间保留标签空间的序约束关系,使得尾部特征能够利用头部特征的信息,进而提升尾部数据的预测准确度,从而解决年龄估计中的长尾分布问题。
-
公开(公告)号:CN117892803A
公开(公告)日:2024-04-16
申请号:CN202311781461.2
申请日:2023-12-22
Applicant: 电子科技大学
IPC: G06N3/096 , G06N3/045 , G06N3/0464 , G06V10/764 , G06V10/772 , G06V10/82
Abstract: 该发明公开了一种用图像识别的多教师蒸馏域知识记忆与迁移方法,属于图像识别领域。本发明通过三个策略来有效地寻找多个教师:权重重排列、特征摄动、和多样性正则。为减少多个教师在推理时间以及存储上的消耗,每个教师被表达为原始模型的一个小分支。最终,源域上的知识通过多个模型进行记忆,同时通过将源域上的多模型作为教师使用蒸馏损失将知识迁移到目标域上。本发明所提出的基于多教师蒸馏的域知识记忆与迁移方法,能够从多方位对源域知识进行高效地记忆,并通过多教师蒸馏损失有效地将知识迁移到目标域上。同时,以分支的结构表达多个教师能够显著地降低推理时间以及存储上的消耗。
-
公开(公告)号:CN117556374A
公开(公告)日:2024-02-13
申请号:CN202311633358.3
申请日:2023-12-01
Applicant: 电子科技大学
IPC: G06F18/25 , G06F18/24 , G06F18/213
Abstract: 该发明公开了一种基于视觉‑传感器注意力机制的多模态连续行为识别方法,涉及深度学习中的连续学习领域。本发明因为对传感器模态采用针对性的时间‑频率注意力进行信息增强,并组成视觉‑传感器注意力模块,从而缓解模态之间不平衡,并且通过对增量过程中对原型进行数据增强,缓解存储原型造成过拟合的负面效果。总体达到增强多模态连续行为识别准确率的优良效果。
-
公开(公告)号:CN117079181A
公开(公告)日:2023-11-17
申请号:CN202310933937.3
申请日:2023-07-27
Applicant: 电子科技大学
IPC: G06V20/40 , G06V10/776 , G06V10/77 , G06V10/80 , G06V10/74 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/084
Abstract: 该发明公开了一种基于跨模态认知共识对齐的音视频分割方法,属于多模态图像分割领域。提出了跨模态认知共识模块以及认知共识引导的注意力模块,跨模态认知共识模块分别计算音频、视觉分类置信度,并衡量音视频语义标签的互相似度,接着使用分类置信度对互相似度进行加权,得到语义级跨模态认知共识分数并选取语义对齐的标签;随后,将语义对齐的标签梯度反传回视觉编码器获取类激活信息,通过认知共识引导的注意力模块,突出语义一致性高的视觉目标,以指导后续的分割过程。一方面,本发明的方法在音视频分割数据集上达到了目前最先进的性能;另一方面,本发明的方法可以准确有效的分割出视频中的发声目标,并且输出像素级掩码。
-
公开(公告)号:CN116797627A
公开(公告)日:2023-09-22
申请号:CN202210229687.0
申请日:2022-03-10
Applicant: 电子科技大学
IPC: G06T7/246 , G06T5/50 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种基于融合运动传感信息的多模态视频描述生成方法,对输入的视频流和来自运动传感器的运动数据流进行并行特征提取处理;对视频流逐帧提取图像特征;对运动数据流采样并进行提取运动特征,之后再对运动特征进行动词预测得到包含关键动词信息的预测向量;对单位采样时间内的得到的所有图像特征以及该单位采样对应的动词预测向量进行拼接得到融合特征;将融合特征输入编解码结构中逐个生成词汇组成视频描述语句。在不修改主干网络结构的同时使网络更加关注动词的生成;通过引入额外的运动传感器数据,使运动模态和视觉模态相融合,使网络挖掘到更多有效信息,在增加少量的运算与存储成本提升文字描述生成的精度。
-
-
-
-
-
-
-
-
-