-
公开(公告)号:CN117788845A
公开(公告)日:2024-03-29
申请号:CN202311718609.8
申请日:2023-12-14
申请人: 中国石油大学(华东)
IPC分类号: G06V10/52 , G06N3/0455 , G06V10/80 , G06V10/82 , G06V10/766
摘要: 本发明公开了基于多尺度差异信息和集中式Transformer网络的视觉定位方法。现有方法直接提取多尺度特征来捕获图像中不同尺度的信息容易产生大量冗余信息,削弱不同尺度特征之间的互补性,导致定位不准确和边缘模糊。本发明提出了一种独特的具有多尺度差异信息的集中式transformer网络,用于视觉定位任务。设计了一个新的多尺度差异信息模块,通过计算不同尺度特征的变化来提取独特的信息。这使得网络能够专注于捕捉细粒度的细节,同时保持对视觉内容的整体理解。为了增强跨模态的交互,进一步提出了集中式transformer,以同时聚合多模态融合特征的局部本质信息和全局距离相关性。在3个典型数据集上的综合实验验证了所提方法的优越性。
-
公开(公告)号:CN116908912A
公开(公告)日:2023-10-20
申请号:CN202310499391.5
申请日:2023-05-06
申请人: 中国石油大学(华东)
摘要: 本发明公开了一种抗多噪音干扰网络的地震波速度建模方法。随着采集数据的增加,速度建模的工作量剧增。尤其是在地表、地下结构复杂的低信噪比探区,速度谱能量团的聚焦性非常差,速度拾取非常困难。因此,适应复杂低信噪比的智能化速度建模非常迫切。本发明首次提出了一种抗多噪音干扰网络来研究炮记录之间的对应关系,可以直接从原始地震记录中构建速度模型。所提出的随机噪音模块可以使模型更好地泛化,并提高模拟受干扰噪声的炮记录速度的准确性。在SEG Salt和Simulated数据集上进行的大量实验表明,该模型在地震波速度建模方面取得了很好的结果。
-
公开(公告)号:CN113191357B
公开(公告)日:2023-01-17
申请号:CN202110550780.7
申请日:2021-05-18
申请人: 中国石油大学(华东)
摘要: 本发明公开了基于图注意力网络的多层次图像‑文本匹配方法。该任务的关键挑战在于学习图像和文本间的对应关系。现有的工作大多只学习对象之间的局部语义关系,而针对对象及其关系间的局部短句关系的研究工作很少。本发明从图视域出发,构建了一种基于图注意力网络的多层次图像‑文本匹配方法。该网络通过对图片区域和文本单词构建注意力图结构进行图匹配,以此推断细粒度的结构化短句对应关系。同时,根据构建的图结构推理全局语义进行全局匹配作为图匹配的补充,来实现更全面的跨媒体语义匹配。经过大量实验证明,基于图注意力网络的多层次图像‑文本匹配方法可以同时学习图视域匹配和全局视域匹配,并在MSCOCO和Flickr30K数据集上取得了有竞争力的结果。
-
公开(公告)号:CN113963374A
公开(公告)日:2022-01-21
申请号:CN202111216686.4
申请日:2021-10-19
申请人: 中国石油大学(华东)
IPC分类号: G06V40/10 , G06V10/764 , G06V10/774 , G06K9/62
摘要: 本发明公开了一个新的深度学习网络——多层次特征与身份信息辅助模型MFIA(Multi‑level features and identity assistance)。该模型通过骨架裁剪的方法,放大行人有效区域,去除背景无效信息,并在全局、局部特征提取的同时进行重点区域强调,另外通过行人身份信息辅助行人属性识别,以提高属性的识别能力。实验最终表明,新的行人属性识别模型在Market‑1501‑attribute数据集中取得了较好的性能。
-
公开(公告)号:CN113918754A
公开(公告)日:2022-01-11
申请号:CN202111283716.3
申请日:2021-11-01
申请人: 中国石油大学(华东)
IPC分类号: G06F16/583 , G06N3/04 , G06N3/08
摘要: 本发明公开了一种基于场景图更新与特征拼接的图像字幕生成方法,它解决了当前基于场景图的图像字幕模型中长短期记忆神经网络丢失先前输入的细节信息的问题,以及场景图更新机制中结点更新程度过大的问题。本发明首次提出了特征拼接网络,该网络对语言LSTM的输入变量做了改进,目的是尽可能多地保留原始输入信息,减少输入信息在计算过程中的损失。其次,本发明提出一种新的场景图更新机制来更新已访问过的结点权重,避免引起结点信息丢失的问题。同时,本发明设计了图更新系数来指导图更新,以确定更新程度的大小。本发明在官方数据集Microsoft COCO上进行了实验,在各种评估机制的实验中取得了有竞争力的结果。
-
公开(公告)号:CN112084358A
公开(公告)日:2020-12-15
申请号:CN202010918759.3
申请日:2020-09-04
申请人: 中国石油大学(华东)
IPC分类号: G06F16/58 , G06F16/532 , G06F40/126 , G06F40/205 , G06F40/30 , G06K9/62
摘要: 本发明公开了基于带有主题约束的区域强化网络的图像‑文本匹配方法。该任务由于能将不同的模态关联起来而受到广泛的关注。以往的方法主要对区域‑单词对之间的相似性进行聚合来寻找区域和单词之间的对应关系。然而,这些方法很少考虑图像中不同区域的关系而平等对待所有区域。此外,过于关注区域单词对齐可能会曲解图像。本发明首次提出了基于带有主题约束的区域强化网络来研究图像和文本之间的对应关系。设计一个具有交叉注意力的区域强化网络,通过考虑区域之间的关系重新分配区域‑单词的相似性来推断细粒度的对应关系。并提出主题约束模块,总结图像的中心主题以约束原始图像的偏离。本发明在MSCOCO和Flicr30K上进行大量实验证明了提出模型的有效性。
-
公开(公告)号:CN117668283A
公开(公告)日:2024-03-08
申请号:CN202311718486.8
申请日:2023-12-14
申请人: 中国石油大学(华东)
IPC分类号: G06F16/583 , G06F16/58 , G06N3/0455
摘要: 本发明公开了基于基于记忆自校正的视觉定位方法。现有的视觉定位方法利用固定的图像和文本表示来捕获跨模态语义一致性,限制了根据不同的文本信息调整图像表示的灵活性。为了应对这一限制,本发明提出了一种新的记忆自校正网络,根据查询动态细化图像表示,从而提高文本和图像之间的语义一致性,以实现视觉定位。构建了语义相关过滤模块(SRFM)和自适应记忆融合模块(AMFM),显式地对图像和文本之间的关系进行建模。SRFM侧重于过滤与查询无关的图像信息,而AMFM自适应地将文本相关表示与初始图像特征融合,以增强MSCN模型的理解能力。在3个数据集上的综合实验验证了所提方法与现有方法相比的优越性。
-
公开(公告)号:CN116520420A
公开(公告)日:2023-08-01
申请号:CN202310499480.X
申请日:2023-05-06
申请人: 中国石油大学(华东)
摘要: 本发明公开了基于随机噪音与注意力机制网络的地震波速度建模方法。地震波速度建模方法试图通过将多层地震波的全局特征投射到一个共同的空间来直接比较它们之间的相似性。然而,他们缺乏对有噪音的地震波的局部细粒度分析,忽略了细粒度的信息(低频‑高频关联性)。本发明首次提出了基于随机噪音与注意力机制网络来研究炮记录之间的对应关系,可以直接从原始地震记录中构建速度模型。提出了炮记录注意力机制来揭示炮记录中的中低频信息。所提出的随即噪音模块可以使模型更好地泛化,并提高模拟受干扰噪声的炮记录速度的准确性。在SEG Salt和Simulated数据集上进行的大量实验表明,该模型在地震波速度建模方面取得了很好的结果。
-
公开(公告)号:CN115249323A
公开(公告)日:2022-10-28
申请号:CN202111041484.0
申请日:2021-09-07
申请人: 中国石油大学(华东)
摘要: 本发明公开了基于对称注意力的原始特征注入网络的视觉问答方法。以往的方法主要采用注意机制和密集的迭代操作进行细粒度匹配。然而,这些方法使得图像区域的自相关信息被忽略,这将导致整体语义理解上的偏差。此外,我们注意到在多次双边共同注意力操作之后,图像的一些有价值但不被关注的边缘信息常常被完全忽视。本发明首次提出了基于对称注意力的原始特征注入网络来研究图像和问题之间的对应关系。设计一个具有对称注意力强化网络,通过考虑区域间的关系,利用双边信息和自相关性,挖掘更完整的视觉语义并避免理解偏差。提出原始特征注入模块,恢复图像有价值但不被关注的边缘信息。本发明在VQA2.0上进行大量实验证明了提出模型的有效性。
-
公开(公告)号:CN115249307A
公开(公告)日:2022-10-28
申请号:CN202111067912.7
申请日:2021-09-13
申请人: 中国石油大学(华东)
摘要: 本发明公开了基于嵌套注意力的原始特征注入网络的视觉问答方法。以往的方法主要采用注意机制和密集的迭代操作进行细粒度匹配。然而,这些方法无论视觉特征与问题特征是否相关,注意力都会为视觉特征和问题特征输出加权平均值。此外,我们注意到在多次双边共同注意力操作之后,图像的一些有价值但不被关注的边缘信息常常被完全忽视。本发明首次提出了基于嵌套注意力的原始特征注入网络来研究图像和问题之间的对应关系。设计一个具有嵌套注意力强化网络,通过考虑区域间的关系,消除向量不相关信息,有效地融合视觉特征和问题特征。提出原始特征注入模块,恢复图像有价值但不被关注的边缘信息。本发明在VQA2.0上进行大量实验证明了提出模型的有效性。
-
-
-
-
-
-
-
-
-