-
公开(公告)号:CN113836339A
公开(公告)日:2021-12-24
申请号:CN202111021629.0
申请日:2021-09-01
申请人: 淮阴工学院
IPC分类号: G06F16/55 , G06F16/58 , G06F16/583 , G06F16/587 , G06K9/62 , G06N3/04 , G06N3/08
摘要: 本发明涉及计算机视觉技术领域,公开了一种基于全局信息和位置嵌入的场景图生成方法,基于大型数据集中的图像,由Faster‑RCNN得到高级特征图和每个实体信息并且对目标位置编码;将特征图和实体信息拼接的特征通过基于自注意力机制的网络得到节点间与其他目标的信息连接;利用LSTM的注意力网络得到目标上下文信息;构建边上下文生成的解码信息和目标图关系的生成融合方式;通过关系计算得到最终场景图。与现有技术相比,本发明将目标特征融入原始图像的视觉信息的方法,加入位置编码信息,连接全局信息和加权信息,提升整体视觉特征对于单一目标的影响,提高了模型推理时对于场景中主要目标的关注度和主宾分类的合理性,召回率有明显提升。
-
公开(公告)号:CN115512195A
公开(公告)日:2022-12-23
申请号:CN202211194469.4
申请日:2022-09-28
申请人: 淮阴工学院
IPC分类号: G06V10/80 , G06V10/764 , G06V10/774 , G06F40/49 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本发明涉及计算机视觉与自然语言处理领域,公开了一种基于多交互信息融合的图像描述方法,采用目标检测模型提取预处理后训练集的图像显著区域特征,然后使用多视觉语义信息交互模块进行编码显著区域特征得到多层增强图像融合特征,通过对多层增强图像融合特征进行平均池化生成全局图像融合特征;利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系,从而得到该时间步上下文信息;再经语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。与现有技术相比,本发明能够充分捕获图像视觉信息间的交互信息以及图像视觉信息与文本语义信息间交互信息的多种互补信息,实现对图像语义更加全面的理解。
-
公开(公告)号:CN113836339B
公开(公告)日:2023-09-26
申请号:CN202111021629.0
申请日:2021-09-01
申请人: 淮阴工学院
IPC分类号: G06F16/55 , G06F16/58 , G06F16/583 , G06F16/587 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/08
摘要: 本发明涉及计算机视觉技术领域,公开了一种基于全局信息和位置嵌入的场景图生成方法,基于大型数据集中的图像,由Faster‑RCNN得到高级特征图和每个实体信息并且对目标位置编码;将特征图和实体信息拼接的特征通过基于自注意力机制的网络得到节点间与其他目标的信息连接;利用LSTM的注意力网络得到目标上下文信息;构建边上下文生成的解码信息和目标图关系的生成融合方式;通过关系计算得到最终场景图。与现有技术相比,本发明将目标特征融入原始图像的视觉信息的方法,加入位置编码信息,连接全局信息和加权信息,提升整体视觉特征对于单一目标的影响,提高了模型推理时对于场景中主要目标的关注度和主宾分类的合理性,召回率有明显提升。
-
公开(公告)号:CN114359403A
公开(公告)日:2022-04-15
申请号:CN202111565860.6
申请日:2021-12-20
申请人: 淮阴工学院 , 卓弢机器人盐城有限公司
IPC分类号: G06T7/80 , G06V10/762 , G06V10/82 , G06K9/62 , G06N3/08
摘要: 本发明涉及三维空间视觉定位领域,公开了一种基于非完整性蘑菇图像的三维空间视觉定位方法、系统及装置,包括图像采集模块、测距模块、主控模块;所述图像采集模块用于采集待检测蘑菇的图像信息;所述测距模块用于测量图像采集模块与待检测蘑菇的垂直距离;所述主控模块用于对采集图像进行预处理,然后对预处理后图像中的蘑菇进行识别和定位,再对识别出的蘑菇进行完整性检测,在识别定位时,根据图像完整性分别确定图像中蘑菇的中心点,最终生成蘑菇的三维坐标。与现有技术相比,本发明所提出的方法可以实现对图像采集不完整的蘑菇进行定位以及进一步提高蘑菇的定位精度。
-
-
-