基于跨模态记忆对比指称表达理解的多模态目标检测方法

    公开(公告)号:CN115563580A

    公开(公告)日:2023-01-03

    申请号:CN202211249523.0

    申请日:2022-10-12

    Abstract: 本发明提供一种基于跨模态记忆对比指称表达理解的多模态目标检测方法,其采用具有较强表达力的Transformer网络去融合视觉与语言特征,利用多模态特征编码来捕获长范围的句子以及图像中目标信息。同时,建立整个数据集中目标关系记忆存储机制,通过建模多模态记忆增强与更新过程,利用整个数据集中图像间目标相关的记忆特征去增强当前数据集的多模态特征,从而实现本发明提出的跨模态记忆对比的Transformer指称表达理解。基于跨模态记忆对比的Transformer指称表达理解所提取的特征在拉大与其他干扰特征的距离的同时,有效地拉近了当前图像与句子的目标特征与整个数据集的同类别目标特征之间的距离,提升特征的判别性与鲁棒性,进而提高指示表达理解的目标检测精度。

    基于图像的教学场景行为识别网络处理方法及装置

    公开(公告)号:CN115497163A

    公开(公告)日:2022-12-20

    申请号:CN202211154199.4

    申请日:2022-09-21

    Abstract: 本发明公开了一种基于图像的教学场景行为识别网络处理方法及装置,属于图像识别技术领域。本发明用于教学场景下的行为识别,通过对图像提取全局和局部信息,以及两种信息的融合,得到信息量大的融合特征;最后据此特征对图像中的行为做识别。本发明的基于图像的教学场景行为识别方式可以弥补基于视频流的行为识别方法的算力需要大的问题,并且此方法需要的训练数据量也更小。全局和局部的特征解耦分别提取可以获得比单路特征提取更加丰富的图像信息;通过对不同层的特征融合和特征级联,可以从大量提取出的初始信息中筛选获得更多的有效信息;位置恢复模块可以增强模型对图像的位置信息的感知能力。

    基于运动特征增强和长时时序建模的考场作弊行为分析方法

    公开(公告)号:CN112926453B

    公开(公告)日:2022-08-05

    申请号:CN202110213933.9

    申请日:2021-02-26

    Abstract: 本发明公开了基于运动特征增强和长时时序建模的考场作弊行为分析方法,属于视频行为识别领域和深度学习领域,首先收集数据集,再对数据进行行为类别的标注并将视频流提取为图像帧,基于运动特征增强的方法提升模型对运动目标的捕获能力,通过特征谱移位方式进行帧之间的信息融合,基于时序金字塔的方法对长时的时序关系进行建模,完成识别模型的搭建;然后根据数据集获得的图像采用Xavier方法对行为识别分类模型进行初始化,采用分段抽取的方式获得视频帧的采样序列,基于分类模型的损失函数进行迭代到预设迭代次数,完成模型的训练,最后使用通过抽样获得的视频帧序列进行推理测试,得到具体的行为类别结果。

    一种基于动态自注意力生成对抗网络的图像合成方法

    公开(公告)号:CN113379655B

    公开(公告)日:2022-07-29

    申请号:CN202110537516.X

    申请日:2021-05-18

    Abstract: 本发明公开了一种基于动态自注意力生成对抗网络的图像合成方法,属于计算机视觉领域。该方法首先选择生成对抗网络作为基本框架,并对训练图片进行归一化,还对正态分布进行采样得到噪声样本。本发明借鉴了Linformer算法和动态卷积算法,并对发明中使用的多头自注意力机制进行改进,增加了每个自注意力头之间的联系和约束,使得这些自注意力头可以去学习到图像的各种模式知识。本发明充分地发挥了动态自注意力机制和生成对抗网络的优势,提出的动态自注意力模块可大幅度降低多头自注意力机制的计算复杂度,并改善生成对抗网络的模式崩塌和训练不稳定等问题。

    一种基于多尺度语言嵌入REC的目标检测方法

    公开(公告)号:CN112926662B

    公开(公告)日:2022-05-03

    申请号:CN202110222614.4

    申请日:2021-02-25

    Abstract: 本发明提供一种基于多尺度语言嵌入REC的目标检测方法,把语言特征转化为不同尺度的卷积核,并与视觉特征进行卷积,得到语言特征与视觉特征每个点及其周围的点的相似度,将得到的相似度谱作用回原始视觉特征上,加强与语言相关的视觉特征的表达,同时引入全局视觉语言相互作用信息及位置信息,预测被描述的目标的位置,提升了网络对于视觉上下文的利用能力,相比于基准的普通基于单阶段REC的目标检测方法,预测准确率更高。

    一种区域自适应的图像去雾系统及方法

    公开(公告)号:CN110738624B

    公开(公告)日:2022-02-01

    申请号:CN201910995780.0

    申请日:2019-10-18

    Abstract: 本发明提供了一种区域自适应的图像去雾系统,包括预去雾模块、与所述预去雾模块连接的自适应区域划分模块、分别与所述自适应区域划分模块连接的余雾去除模块和纹理修复模块,以及分别与所述余雾去除模块和纹理修复模块连接的特征融合模块。基于上述系统,本方法还公开了一种区域自适应的图像去雾方法。本发明通过将图像去雾和纹理修复解耦到两个不同的子模块来处理单图像去雾问题,避免了之前的方法只使用一个网络来学习两个不同的目标函数,提出的两阶段去雾网络能够通过区域自适应的方式来恢复清晰图像,并避免过去雾与欠去雾问题。

    基于多分支网络的图像分割结果质量评价方法

    公开(公告)号:CN109242864B

    公开(公告)日:2021-09-24

    申请号:CN201811087399.6

    申请日:2018-09-18

    Abstract: 本发明公开了一种基于多分支网络的图像分割结果质量评价方法。属于图像处理技术领域。本发明为了取得评价效果更好的图像分割结果质量评价方案,采用基于多分支卷积神经网络的评价网络对分割结果进行评价得出其质量预测分数,为后续的分割性能优化和最佳分割结果挑选提供依据。与现有的对不同图像分割结果进行评的评价方式相比,本发明利用多分支的卷积神经网络,从多方面提取分割图像更全面的特征,从而解决了现有评价方式在关联性较小分割结果差距较大,以及在较为相似的分割结果评价处理时效果不佳的技术问题。

    基于运动特征增强和长时时序建模的考场作弊行为分析方法

    公开(公告)号:CN112926453A

    公开(公告)日:2021-06-08

    申请号:CN202110213933.9

    申请日:2021-02-26

    Abstract: 本发明公开了基于运动特征增强和长时时序建模的考场作弊行为分析方法,属于视频行为识别领域和深度学习领域,首先收集数据集,再对数据进行行为类别的标注并将视频流提取为图像帧,基于运动特征增强的方法提升模型对运动目标的捕获能力,通过特征谱移位方式进行帧之间的信息融合,基于时序金字塔的方法对长时的时序关系进行建模,完成识别模型的搭建;然后根据数据集获得的图像采用Xavier方法对行为识别分类模型进行初始化,采用分段抽取的方式获得视频帧的采样序列,基于分类模型的损失函数进行迭代到预设迭代次数,完成模型的训练,最后使用通过抽样获得的视频帧序列进行推理测试,得到具体的行为类别结果。

    一种基于多尺度特征编码的图像压缩方法

    公开(公告)号:CN110956671A

    公开(公告)日:2020-04-03

    申请号:CN201911290877.8

    申请日:2019-12-12

    Abstract: 本发明公开了一种基于多尺度特征编码的图像压缩方法,通过训练集图像特征的梯度谱绝对值取平均得到选择向量,并利用选择向量来指导不同通道特征选择编码分辨率;同时将低分辨率编码的特征在解码端经过超分辨网络进行恢复,最终与高分辨率编码的特征重新组合成完整特征谱,映射回原始图像。本发明针对图像特征的特点进行差异性处理,对于容易从上下文信息恢复的特征用低分辨率传输,从而节省了码率;对于复杂的精细特征用高分辨率传输,减小了损失程度。

Patent Agency Ranking