-
公开(公告)号:CN117746509A
公开(公告)日:2024-03-22
申请号:CN202410068386.3
申请日:2024-01-17
Applicant: 电子科技大学
IPC: G06V40/20 , G06V10/764 , G06V10/774 , G06V20/40 , G06N3/04 , G06N3/084
Abstract: 本发明提出一种基于可预见多模态泛化知识表示的持续行为识别方法,包括如下步骤:步骤S1:采集多模态行为活动数据,对行为活动数据进行预处理;步骤S2:进行任务划分;步骤S3:构建多模态行为识别模型;步骤S4:对基任务进行激励型训练;步骤S5:激励型训练结束后,评估多模态行为识别模型的识别精度,并选取一组表示均值向量和表示标准差向量进行存储;步骤S6:进行增量任务的训练;步骤S7:增量任务训练结束后,评估其识别精度,并选取一组表示均值向量和表示标准差向量进行存储以备后续任务;依次类推,直到最后一个任务结束。本发明缓解了由于模态不平衡性所带来的泛化性知识缺失问题,从而减少网络在持续任务中的灾难性遗忘问题。
-
公开(公告)号:CN117292385A
公开(公告)日:2023-12-26
申请号:CN202311241140.3
申请日:2023-09-25
Applicant: 电子科技大学
IPC: G06V30/18 , G06V30/146 , G06V30/302 , G06V30/19 , G06V10/82
Abstract: 该发明公开了一种基于字符特征摘要的端到端文本提取识别头方法,属于深度学习、计算机视觉、端到端文本提取领域。通过多阶段逐步提取字符全局特征,并在每个阶段进行历史特征摘要的方法,更好的进行了字符特征的提取。并通过在每个阶段都进行文本识别结果预测,在增加较少计算量的前提下,更好的收敛了网络、提升了最终结果准确率,具有简单且快速准确的特点。
-
公开(公告)号:CN117237765A
公开(公告)日:2023-12-15
申请号:CN202311270683.8
申请日:2023-09-28
Applicant: 电子科技大学
IPC: G06V10/776 , G06V10/74 , G06V10/764 , G06V10/82
Abstract: 该发明公开了一种基于类激活区域偏移度量的连续学习性能评估方法,属于深度神经网络模型的类增量连续学习领域。本发明在进行图像处理任务时,深度神经网络模型需要对图像中待处理的物体进行提取和重点关注,以完成后续的下游任务;在连续学习场景下,模型在后续任务的学习中灾难性遗忘可能会导致其对之前任务中的目标失去提取和关注能力。本方案提出了使用Grad‑cam类别激活映射谱在不同任务阶段的变化情况来衡量连续学习算法遏制灾难性遗忘的有效性,主要给出了量化的关注区域稳定度评价指标,并结合分类准确度形成了偏离度和相关度指标,最后综合DV和RL作为DR评价指标来衡量连续学习算法的整体表现。
-
公开(公告)号:CN116250846A
公开(公告)日:2023-06-13
申请号:CN202310249522.4
申请日:2023-03-15
Applicant: 电子科技大学
IPC: A61B5/369 , G06F18/2415 , G06F18/25 , G06N3/0464 , G06N3/08 , G06F3/01 , A61B5/372 , A61B5/00
Abstract: 本发明提供一种基于数据转换的多分支运动想象脑电信号特征融合分类方法,旨在扩充网络结构宽度即网络分支的基础上,将脑电波数据转换为不同的输入格式,使用多个分支网络进行处理,使用格拉姆角场作为新的转换后的数据格式输入网络,和深度分离卷积及时频图相比提供了更加丰富的特征,有利于提高特征提取的完整性,使得不同网络分支之间具有的显著特征不同,提取的特征相互互补。转换为不同的数据格式有利于训练网络学习不同类型的特征。同时使用了分类任务中大任务和小任务以及其他任务的约束,即使用网络不同的任务目标实现多种约束,有利于网络提取到通适性更高、更全面的特征,取得了更佳的运动想象脑电信号分类效果。
-
公开(公告)号:CN115713538A
公开(公告)日:2023-02-24
申请号:CN202211445260.0
申请日:2022-11-18
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于跨模态对偶图对齐的参考图像分割方法,属于多模态图像分割领域。本发明创新性的提出了“部分‑统一‑整体”的范式,即将提取得到的视觉与文本特征先映射至一个统一的潜在表征结构,再进行跨模态融合。这有利于模型提取的显式对齐信息,可以有效增强最终的分割效果。
-
公开(公告)号:CN115578246A
公开(公告)日:2023-01-06
申请号:CN202211335202.2
申请日:2022-10-28
Applicant: 电子科技大学
Abstract: 该发明公开了一种基于风格迁移的非对齐可见光和红外模态融合目标检测方法,属于多模态目标检测领域。本发明充分考虑可见光和红外图像不对齐的问题,采用一个可学习的仿射变换网络,对红外模态作仿射变换,实现模态间特征对齐,有效的提升模态融合的效果。本发明中采用一个可学习的仿射变换模块LATM(learning affine transform moduel)来进行特征对齐,采用一个风格迁移融合模块来进行模态间特征融合,本发明可以有效地应对非对齐的可见光和红外图像融合目标检测任务。
-
公开(公告)号:CN115563580A
公开(公告)日:2023-01-03
申请号:CN202211249523.0
申请日:2022-10-12
Applicant: 电子科技大学
IPC: G06F18/25 , G06F18/2413 , G06N3/0464 , G06N3/0442 , G06N3/08 , G06V10/82 , G06V10/70
Abstract: 本发明提供一种基于跨模态记忆对比指称表达理解的多模态目标检测方法,其采用具有较强表达力的Transformer网络去融合视觉与语言特征,利用多模态特征编码来捕获长范围的句子以及图像中目标信息。同时,建立整个数据集中目标关系记忆存储机制,通过建模多模态记忆增强与更新过程,利用整个数据集中图像间目标相关的记忆特征去增强当前数据集的多模态特征,从而实现本发明提出的跨模态记忆对比的Transformer指称表达理解。基于跨模态记忆对比的Transformer指称表达理解所提取的特征在拉大与其他干扰特征的距离的同时,有效地拉近了当前图像与句子的目标特征与整个数据集的同类别目标特征之间的距离,提升特征的判别性与鲁棒性,进而提高指示表达理解的目标检测精度。
-
公开(公告)号:CN115497163A
公开(公告)日:2022-12-20
申请号:CN202211154199.4
申请日:2022-09-21
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于图像的教学场景行为识别网络处理方法及装置,属于图像识别技术领域。本发明用于教学场景下的行为识别,通过对图像提取全局和局部信息,以及两种信息的融合,得到信息量大的融合特征;最后据此特征对图像中的行为做识别。本发明的基于图像的教学场景行为识别方式可以弥补基于视频流的行为识别方法的算力需要大的问题,并且此方法需要的训练数据量也更小。全局和局部的特征解耦分别提取可以获得比单路特征提取更加丰富的图像信息;通过对不同层的特征融合和特征级联,可以从大量提取出的初始信息中筛选获得更多的有效信息;位置恢复模块可以增强模型对图像的位置信息的感知能力。
-
公开(公告)号:CN112926453B
公开(公告)日:2022-08-05
申请号:CN202110213933.9
申请日:2021-02-26
Applicant: 电子科技大学
Abstract: 本发明公开了基于运动特征增强和长时时序建模的考场作弊行为分析方法,属于视频行为识别领域和深度学习领域,首先收集数据集,再对数据进行行为类别的标注并将视频流提取为图像帧,基于运动特征增强的方法提升模型对运动目标的捕获能力,通过特征谱移位方式进行帧之间的信息融合,基于时序金字塔的方法对长时的时序关系进行建模,完成识别模型的搭建;然后根据数据集获得的图像采用Xavier方法对行为识别分类模型进行初始化,采用分段抽取的方式获得视频帧的采样序列,基于分类模型的损失函数进行迭代到预设迭代次数,完成模型的训练,最后使用通过抽样获得的视频帧序列进行推理测试,得到具体的行为类别结果。
-
公开(公告)号:CN113379655B
公开(公告)日:2022-07-29
申请号:CN202110537516.X
申请日:2021-05-18
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于动态自注意力生成对抗网络的图像合成方法,属于计算机视觉领域。该方法首先选择生成对抗网络作为基本框架,并对训练图片进行归一化,还对正态分布进行采样得到噪声样本。本发明借鉴了Linformer算法和动态卷积算法,并对发明中使用的多头自注意力机制进行改进,增加了每个自注意力头之间的联系和约束,使得这些自注意力头可以去学习到图像的各种模式知识。本发明充分地发挥了动态自注意力机制和生成对抗网络的优势,提出的动态自注意力模块可大幅度降低多头自注意力机制的计算复杂度,并改善生成对抗网络的模式崩塌和训练不稳定等问题。
-
-
-
-
-
-
-
-
-