-
公开(公告)号:CN119597939A
公开(公告)日:2025-03-11
申请号:CN202411602767.1
申请日:2024-11-11
Applicant: 国网河北省电力有限公司信息通信分公司 , 北京邮电大学 , 国家电网有限公司
Inventor: 彭姣 , 辛锐 , 吴军英 , 欧中洪 , 贺月 , 宋美娜 , 常永娟 , 朱一凡 , 王骏 , 张啸 , 姜丹 , 商笑然 , 卢艳艳 , 尹晓宇 , 李涛 , 马子淇 , 张鹏飞 , 李士林
IPC: G06F16/43 , G06F16/483 , G06N3/0455 , G06N3/0499 , G06F18/25 , G06F18/22
Abstract: 本发明适用于人工智能技术领域,提供了一种跨模态检索方法、装置、电子设备及存储介质,该方法包括:通过图像编码器对图像模态进行编码,通过文本编码器对文本模态进行编码,生成高维空间的向量表示;将图像模态的向量和文本模态的向量输入到同一个共享自注意力层进行对齐,并分别通过各自的前馈网络层提取特征;通过交叉注意力机制,对图像模态的向量和文本模态的向量进行跨模态交叉融合处理,得到图像模态的跨模态表征向量和文本模态的跨模态表征向量;基于图像模态的跨模态表征向量和文本模态的跨模态表征向量,输出图像模态和文本模态的相似度。本发明能够提高跨模态检索精度。
-
公开(公告)号:CN119206247A
公开(公告)日:2024-12-27
申请号:CN202411219907.7
申请日:2024-09-02
Applicant: 北京邮电大学
IPC: G06V10/44 , G06V10/46 , G06V10/75 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/0895
Abstract: 本发明提供一种基于深度学习的多光谱图像局部特征提取方法及系统,属于多光谱图像处理技术领域,获取待处理的一对多光谱图像;利用光谱选择网络将获取的一对多光谱图像提取浅层特征;利用特征提取网络对浅层特征进行处理,生成图中的每个像素点的特征向量;其中,在训练阶段使用提出的损失函数训练,在推理阶段根据匹配需要提取描述子;其中,采用最邻近算法对已有描述子进行粗匹配,并使用RANSAC方法进行过滤,得到最终的匹配结果。本发明根据特征自适应激活神经网络通道的光谱选择网络,可以同时接受多个来自不同光谱的图像进行训练,同时设计包含更多负样本的对比损失函数以提取多光谱图像特征。
-
公开(公告)号:CN120086325A
公开(公告)日:2025-06-03
申请号:CN202510044028.3
申请日:2025-01-10
Applicant: 国网河北省电力有限公司信息通信分公司 , 北京邮电大学 , 国家电网有限公司
IPC: G06F16/3329 , G06F16/9535 , G06N3/0442 , G06N3/042 , G06N3/0895 , G06F18/25
Abstract: 本申请提出了一种基于图神经网络和长短期记忆会话推荐方法,涉及推荐系统技术领域,其中,该方法包括:获取用户历史交互会话;将用户历史交互会话输入推荐模型中,输出推荐结果,其中,推荐模型包括长期兴趣编码器、短期兴趣编码器、长短期兴趣解耦模块、融合模块和推荐结果生成模块,长短期兴趣解耦模块结合自监督学习机制,通过对比学习的方式解耦长期兴趣和短期兴趣,融合模块对解耦后的长短期兴趣表示进行自适应融合,得到会话表示。采用上述方案的本发明能够动态捕捉用户的实时偏好,提供更精确的推荐结果。
-
公开(公告)号:CN120071358A
公开(公告)日:2025-05-30
申请号:CN202411964844.8
申请日:2024-12-30
Applicant: 国网河北省电力有限公司信息通信分公司 , 北京邮电大学 , 国家电网有限公司
IPC: G06V30/148 , G06V30/146 , G06V30/18 , G06F16/3329
Abstract: 本发明公开了一种基于混合注意力机制的跨模态检索方法及系统,本发明的方法包括基于ConvNeXt和BERT模型进行图像及对应的文本的特征提取,并根据提取的特征进行多模态特征聚合得到对应的粗粒度特征;基于粗粒度特征将BERT的中间层输出与ConvNeXt的顶层输出进行跨层对齐,并将BERT的顶层输出和ConvNeXt的顶层输出进行层次化对齐,以得到图像‑文本对齐结果;基于图像‑文本对齐结果通过采用粗粒度召回和细粒度检索的分层推理策略进行跨模态检索。本发明通过有效的语义过滤机制提炼关键信息,实现更准确的跨模态检索,提高检索的准确率和效率。
-
公开(公告)号:CN116012621A
公开(公告)日:2023-04-25
申请号:CN202211662975.1
申请日:2022-12-23
Applicant: 北京邮电大学
Abstract: 本发明提供了一种旋转不变的多光谱图像的描述子匹配方法。该方法包括:提取输入的多光谱图像的特征点,根据所述特征点使用log‑Gabor滤波器的相位一致性计算后,获得所述多光谱图像的一阶MIM层,在所述一阶MIM层的基础上获取两个二阶MIM层,所述多光谱图像包括匹配图和待匹配图;分别对应各个特征点在所述两个二阶MIM层上分别构建两个描述子,分别对两个描述子进行旋转,得到匹配图的描述子集合和待匹配图的描述子集合;对所述匹配图的描述子集合和所述待匹配图的描述子集合进行匹配处理,获取所述匹配图和待匹配图的描述子的匹配结果。本发明采用离散旋转角度的方法,将旋转度数离散成几个值,构建圆环形式的描述子解决旋转的多光谱图像的匹配问题。
-
公开(公告)号:CN119166853A
公开(公告)日:2024-12-20
申请号:CN202411097270.9
申请日:2024-08-12
Applicant: 国网河北省电力有限公司信息通信分公司 , 北京邮电大学 , 国家电网有限公司
Inventor: 彭姣 , 辛锐 , 吴军英 , 欧中洪 , 王玉贞 , 宋美娜 , 贺月 , 朱一凡 , 陈曦 , 吕帅 , 常永娟 , 郑朴原 , 卢艳艳 , 尹晓宇 , 李涛 , 马子淇 , 张鹏飞 , 李士林
IPC: G06F16/783 , G06N3/0499
Abstract: 本发明提供一种视频文本跨模态检索方法及装置,属于数据处理领域。该方法包括:获取目标数据集中的原始数据;其中,原始数据中包括视频数据及其对应的文本数据;对原始数据进行预处理,得到多模态特征嵌入向量;对多模态特征嵌入向量进行特征提取,得到视频特征和文本特征;其中,视频特征包括视频全局特征和视频局部特征;分别对视频全局特征、视频局部特征和文本特征进行嵌入学习,得到视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间;基于视频嵌入空间、视频局部关系嵌入空间和文本嵌入空间进行视频文本跨模态检索。本发明通过联合视觉、文本以及局部关系进行空间嵌入学习,能更加精确高效地实现跨模态检索。
-
-
-
-
-