-
公开(公告)号:CN118861602A
公开(公告)日:2024-10-29
申请号:CN202410951724.8
申请日:2024-07-16
Applicant: 电子科技大学
Abstract: 该发明公开了一种针对多源异构数据连续学习能力的评价系统,涉及深度学习中的连续学习领域。该系统包括:预处理模块、特征提取网络、分类器模块、混淆率计算模块、评价指标计算模块;将多源异构数据输入预处理模块,然后依次经过特征提取网络、分类器模块、混淆率计算模块、评价指标计算模块,由评价指标计算模块输出多源异构数据的连续学习能力评价指标;由于本发明于以往的评价指标不同,从多模态的角度和新旧任务之间混淆的角度进行思考,所以对于多模态连续学习方法的评价更加准确。
-
公开(公告)号:CN117952162A
公开(公告)日:2024-04-30
申请号:CN202311750182.X
申请日:2023-12-19
Applicant: 电子科技大学
Abstract: 该发明公开了一种基于高效视频记忆网络的视频域知识记忆与迁移方法,本发明涉及视频图像处理领域。本发明旨在源视频域模型的监督下将更多视频隐式地存储在大小与存储空间预算一致的高效视频记忆网络中,并通过蒸馏损失将源视频域知识迁移到目标视频域模型中。首先通过时空编码器对类别特征均值和帧索引进行编码,而后将编码后的时空特征送入重构解码器中得到重构帧图像,并在像素级别和特征级别上对高效视频记忆网络进行监督。最后,源视频域知识通过高效视频记忆网络进行存储,同时计算源视频域知识在源视频域模型和目标视频域模型的表达之间的蒸馏损失,将知识迁移到目标视频域上。
-
公开(公告)号:CN115063862B
公开(公告)日:2024-04-23
申请号:CN202210731136.4
申请日:2022-06-24
Applicant: 电子科技大学
IPC: G06V40/16 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/084
Abstract: 该发明公开了一种基于特征对比损失的年龄估计方法,属于计算机视觉领域。该方法首先选择注意力机制作为特征提取网络的基本结构,并使用了基于注意力机制的偏移窗口变换网络作为特征提取网络的主要结构,用于从面部图像中提取鲁棒的年龄特征;然后设计了用于计算特征之间相对距离的距离估计网络,通过基于特征的对比损失引导特征空间保留标签空间的序约束关系,使得尾部特征能够利用头部特征的信息,进而提升尾部数据的预测准确度,从而解决年龄估计中的长尾分布问题。
-
公开(公告)号:CN117892803A
公开(公告)日:2024-04-16
申请号:CN202311781461.2
申请日:2023-12-22
Applicant: 电子科技大学
IPC: G06N3/096 , G06N3/045 , G06N3/0464 , G06V10/764 , G06V10/772 , G06V10/82
Abstract: 该发明公开了一种用图像识别的多教师蒸馏域知识记忆与迁移方法,属于图像识别领域。本发明通过三个策略来有效地寻找多个教师:权重重排列、特征摄动、和多样性正则。为减少多个教师在推理时间以及存储上的消耗,每个教师被表达为原始模型的一个小分支。最终,源域上的知识通过多个模型进行记忆,同时通过将源域上的多模型作为教师使用蒸馏损失将知识迁移到目标域上。本发明所提出的基于多教师蒸馏的域知识记忆与迁移方法,能够从多方位对源域知识进行高效地记忆,并通过多教师蒸馏损失有效地将知识迁移到目标域上。同时,以分支的结构表达多个教师能够显著地降低推理时间以及存储上的消耗。
-
公开(公告)号:CN117556374A
公开(公告)日:2024-02-13
申请号:CN202311633358.3
申请日:2023-12-01
Applicant: 电子科技大学
IPC: G06F18/25 , G06F18/24 , G06F18/213
Abstract: 该发明公开了一种基于视觉‑传感器注意力机制的多模态连续行为识别方法,涉及深度学习中的连续学习领域。本发明因为对传感器模态采用针对性的时间‑频率注意力进行信息增强,并组成视觉‑传感器注意力模块,从而缓解模态之间不平衡,并且通过对增量过程中对原型进行数据增强,缓解存储原型造成过拟合的负面效果。总体达到增强多模态连续行为识别准确率的优良效果。
-
公开(公告)号:CN117079181A
公开(公告)日:2023-11-17
申请号:CN202310933937.3
申请日:2023-07-27
Applicant: 电子科技大学
IPC: G06V20/40 , G06V10/776 , G06V10/77 , G06V10/80 , G06V10/74 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/084
Abstract: 该发明公开了一种基于跨模态认知共识对齐的音视频分割方法,属于多模态图像分割领域。提出了跨模态认知共识模块以及认知共识引导的注意力模块,跨模态认知共识模块分别计算音频、视觉分类置信度,并衡量音视频语义标签的互相似度,接着使用分类置信度对互相似度进行加权,得到语义级跨模态认知共识分数并选取语义对齐的标签;随后,将语义对齐的标签梯度反传回视觉编码器获取类激活信息,通过认知共识引导的注意力模块,突出语义一致性高的视觉目标,以指导后续的分割过程。一方面,本发明的方法在音视频分割数据集上达到了目前最先进的性能;另一方面,本发明的方法可以准确有效的分割出视频中的发声目标,并且输出像素级掩码。
-
公开(公告)号:CN115578246B
公开(公告)日:2023-08-04
申请号:CN202211335202.2
申请日:2022-10-28
Applicant: 电子科技大学
IPC: G06T3/00 , G06V10/44 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 该发明公开了一种基于风格迁移的非对齐可见光和红外模态融合目标检测方法,属于多模态目标检测领域。本发明充分考虑可见光和红外图像不对齐的问题,采用一个可学习的仿射变换网络,对红外模态作仿射变换,实现模态间特征对齐,有效的提升模态融合的效果。本发明中采用一个可学习的仿射变换模块LATM(learning affine transform moduel)来进行特征对齐,采用一个风格迁移融合模块来进行模态间特征融合,本发明可以有效地应对非对齐的可见光和红外图像融合目标检测任务。
-
公开(公告)号:CN116310621A
公开(公告)日:2023-06-23
申请号:CN202211490992.1
申请日:2022-11-25
Applicant: 电子科技大学
IPC: G06V10/774 , G06V10/762 , G06V10/77 , G06V10/82 , G06N3/08 , G06N3/0464
Abstract: 本发明公开了一种基于特征库构建的少样本图像识别方法,属于图像分类领域;本发明能够在新类别训练样本数量及其不足的情况下完成该类别中的新类别物体的识别任务。首先是基于通道的主属性微调方法,只关注高响应的通道进行再训练。其次为了对新类图像信息进行补充,通过对已知类别图片进行特征提取并建立相应的特征库。最后对少数新类样本通过已知类别特征库进行多次局部特征替换,达到生成新类伪样本的效果,能够有效完成在少样本条件下对新类物体的识别任务。
-
公开(公告)号:CN116310484A
公开(公告)日:2023-06-23
申请号:CN202211587833.3
申请日:2022-12-11
Applicant: 电子科技大学
IPC: G06V10/764 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/0442
Abstract: 本发明公开了一种基于双分支网络的连续学习的图像分类方法,属于图像处理技术领域。本发明包括:构建双分支网络,包含主分支、记忆分支;使用记忆分支学习第1批类别,并生成第1批类别的预测结果;从第2批开始,使用主分支学习第t批类别,更新记忆分支参数,生成第1批至第t批类别的预测结果;后续批次采用与步骤三相同的方法进行学习,直至学习完所有批次。本发明能有效避免学习新的类别时造成的旧类别遗忘以及有效克服类别不平衡造成的预测偏见现象,并且不额外增加模型参数量或网络结构。本发明有效提升了模型处理类增量数据的性能。
-
公开(公告)号:CN116228933A
公开(公告)日:2023-06-06
申请号:CN202310295814.1
申请日:2023-03-23
Applicant: 电子科技大学
Abstract: 本发明提供一种基于域适应的漫画视频生成方法,包括以下步骤:先使用人脸视频数据集对运动驱动网络进行训练;完成预训练的运动驱动网络对于输入的一张给定的源影像和驱动帧,就能根据驱动帧的运动生成并输出给定源影像的目标视频;再使用人脸视频数据集与漫画数据集对跨域网络进行训练;引入域判别器,利用梯度翻转层混淆人脸视频数据集和漫画数据集实现域分类误差的最大化。本发明首先使用人脸视频数据集进行图像动态化任务的训练,再将其使用域适应的方法适应到漫画域,解决了漫画数据集数量少而直接使用其进行训练容易导致的过拟合,泛化能力差等问题,不需要进行逐视频优化,使得生成视频的质量和稳定性得以保证。
-
-
-
-
-
-
-
-
-