一种基于多模态图像融合的微光夜视场景理解方法

    公开(公告)号:CN117853856B

    公开(公告)日:2024-07-30

    申请号:CN202410031296.7

    申请日:2024-01-09

    Abstract: 本发明公开了一种基于多模态图像融合的微光夜视场景理解方法,属于人工智能技术,根据层级多模态特征信息的特点,构建不同特征校准和特征聚合模块以增强多模态特征信息的联合表示学习;构建跨模态全局特征描述模块以减少模态间的信息差异,实现多模态特征信息的校准;构建多模态交错稀疏自注意力模块来保证浅层网络层中多模态空间特征信息的聚合;构建对称金字塔池化交叉注意力模块与多模态跨通道通信模块用于聚合深层特征的空间层信息和通道层信息。本发明能够充分利用多模态特征信息互补优势,避免单一模态信息导致微光夜视场景理解能力不足,能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。

    一种基于双重特征知识蒸馏的语义分割方法

    公开(公告)号:CN117036698B

    公开(公告)日:2024-06-18

    申请号:CN202310927713.1

    申请日:2023-07-27

    Abstract: 本发明公开了一种基于双重特征知识蒸馏的语义分割方法,利用教师模型中间层特征知识和输出层语义知识实现知识的迁移。分别获取教师模型和学生网络的多个中间层特征知识送入特征关系集成模块,聚合不同特征层上下文信息;分别获取教师模型和学生网络输出层语义知识送入语义解耦模块,删除指定目标类,求出教师模型和学生网络输出层知识差距。本发明在学习中间层特征知识时能获取一个更好的结构化特征空间,保留学生网络自适应训练的空间,同时将输出层特征解耦,更好地模仿每个元素输出特征的语义信息。通过对特征空间和输出层两重知识的学习提高语义分割模型的性能,增强模型泛化性和鲁棒性。

    一种基于中间层特征辅助模块融合匹配的知识蒸馏方法

    公开(公告)号:CN117253123B

    公开(公告)日:2024-05-17

    申请号:CN202311012546.4

    申请日:2023-08-11

    Abstract: 本发明公开了一种基于中间层辅助特征模块融合匹配的知识蒸馏方法,将教师网络和学生网络划分成若干个模块,利用所划分的模块构建分支网络和辅助训练模块,计算其辅助训练损失;再构建特征融合模块并利用注意力机制生成不同的融合权值对辅助训练模块中提取到的特征根据制定的融合策略进行特征融合,计算其特征融合损失;最后将利用总的蒸馏损失促使学生网络和教师网络进行充分地信息交流,并且辅助学生网络更好的分模块矫正参数。本发明解决了知识网络中存在的信息利用不足、信息交流不对等以及信息冗余问题,提升了学生模型对综合信息的学习和表征能力,提高了特征迁移的可靠性,增强了模型的泛化性和鲁棒性。

    一种基于双重特征知识蒸馏的语义分割方法

    公开(公告)号:CN117036698A

    公开(公告)日:2023-11-10

    申请号:CN202310927713.1

    申请日:2023-07-27

    Abstract: 本发明公开了一种基于双重特征知识蒸馏的语义分割方法,利用教师模型中间层特征知识和输出层语义知识实现知识的迁移。分别获取教师模型和学生网络的多个中间层特征知识送入特征关系集成模块,聚合不同特征层上下文信息;分别获取教师模型和学生网络输出层语义知识送入语义解耦模块,删除指定目标类,求出教师模型和学生网络输出层知识差距。本发明在学习中间层特征知识时能获取一个更好的结构化特征空间,保留学生网络自适应训练的空间,同时将输出层特征解耦,更好地模仿每个元素输出特征的语义信息。通过对特征空间和输出层两重知识的学习提高语义分割模型的性能,增强模型泛化性和鲁棒性。

    一种基于类别掩码蒸馏的航拍图像目标检测方法

    公开(公告)号:CN116486285A

    公开(公告)日:2023-07-25

    申请号:CN202310249360.4

    申请日:2023-03-15

    Abstract: 本发明公开了一种基于类别掩码蒸馏的航拍图像目标检测方法,包括预训练教师网络、学生网络和类别掩码蒸馏模块,类别掩码蒸馏模块负责提取预训练教师网络和学生网络各自的多尺度特征层及对应Softmax激活函数层的预测分数,利用多尺度特征层和预测分数分别产生预训练教师网络和学生网络各个类别的激活映射区域,设置阈值抑制对各个类别有负影响的区域,通过类别掩码蒸馏损失实现教师—学生网络对所有类别的有效区域的迁移,为加大对不易检测类别的学习,设置一个动态权重来加大对难样本学习的惩罚。本发明能够实现对指定类别有效区域的蒸馏,提高对难样本的学习,在教师网络的指导下提升学生网络的检测性能和泛化能力。

    基于模态匹配的连续手语语句识别方法

    公开(公告)号:CN113609922B

    公开(公告)日:2022-05-13

    申请号:CN202110792080.9

    申请日:2021-07-13

    Abstract: 本发明公开了一种基于模态匹配的连续手语语句识别方法,将手语语句的彩色视频和光流图像序列的关键帧和目标词语片段序列作为输入,通过基于模态匹配的连续手语语句识别模型,将手语语句的彩色视频和光流图像序列的关键帧片段序列与语义匹配对齐,得到最终的语义序列。本发明公开了一种基于模态匹配的连续手语语句识别模型,用轻量的特征提取网络,减少其参数量,针对手语数据集进行任务特定性训练,在数据集中样本的标注较少的情况下对连续手语语句进行识别,减少了在传统手语识别方法中对人体姿势信息高度依赖的问题。

    一种基于多模态分层级信息融合的手语词识别方法

    公开(公告)号:CN113297955B

    公开(公告)日:2022-03-18

    申请号:CN202110559367.7

    申请日:2021-05-21

    Abstract: 本发明公开了一种基于多模态分层级信息融合的手语词识别方法,该方法包括:以彩色视频、深度视频和骨骼节点视频三种模态的关键帧序列作为网络输入,构建一个双流I3D网络提取彩色视频和深度视频特征,通过特征拼接融合双模态语义特征,再使用LSTM构建长期时空特征,使用SoftMax进行分类评分;同时使用DST‑GCN网络提取骨骼节点视频的时空特征,再使用SoftMax进行分类评分;最终通过决策级融合方式将两个SoftMax层的预测分数进行融合,得到手语词识别结果。本发明所提出的基于多模态分层级信息融合的手语词识别方法,通过构建分层级融合策略,充分利用了多模态数据互补信息;通过构建DST‑GCN网络,增强了时空图卷积网络时间特征提取能力,进而提高了手语词识别的准确率。

    一种基于IMU的激光雷达三维点云实时运动补偿方法

    公开(公告)号:CN113391300B

    公开(公告)日:2022-02-01

    申请号:CN202110559368.1

    申请日:2021-05-21

    Abstract: 本发明公开了一种基于IMU的激光雷达三维点云实时运动补偿方法,首先,对用于本发明方法实现的激光雷达及IMU进行时间轴同步与空间坐标系统一,并按照时间戳顺序对激光雷达三维点云数据及IMU数据分别进行排序;其次,提出一种基于数据块划分的激光雷达三维点云旋转补偿方法,根据IMU输出激光雷达三维点云数据时序对每帧激光雷达三维点云数据进行数据块划分,根据以上数据块划分思想求得每个数据点相对于帧尾的三轴旋转变换矩阵R,并对激光雷达三维点云数据进行三轴旋转补偿;最后,根据旋转补偿后的点云数据帧估计出点云帧间运动量T,并对点云数据进行平移补偿。与传统方法相比,本方法具有更高的实时性与鲁棒性。

    基于Actor-Critic模型的低曝光静脉图像增强方法

    公开(公告)号:CN113269698B

    公开(公告)日:2022-01-04

    申请号:CN202110560691.0

    申请日:2021-05-21

    Abstract: 本发明公开了一种基于Actor‑Critic模型的低曝光静脉图像增强方法,设计对比度,饱和度,白平衡,曝光和色调曲线函数滤波器,通过Actor‑Critic模型选取最优的一组图像滤波顺序和参数,并利用其对低曝光静脉图像进行滤波操作,输出每个滤波操作对应图像并提取细节信息,叠加到最后一层滤波器处理后的图像中,最终输出增强的静脉图像。本发明公开的基于Actor‑Critic的低曝光静脉图像增强模型,可以自动选择图像编辑滤波顺序和参数,实现低曝光静脉图像光照信息的恢复和对比度的增强,并且通过提取滤波处理过程中各滤波器输出图像的互补静脉细节信息,解决了全局图像处理造成的静脉细节丢失的问题,达到低曝光静脉图像增强的效果。

Patent Agency Ranking