-
公开(公告)号:CN118447567A
公开(公告)日:2024-08-06
申请号:CN202410457333.0
申请日:2024-04-16
Applicant: 北京工业大学
IPC: G06V40/20 , G06V10/764 , G06V20/70 , G06V10/80 , G06N5/022
Abstract: 本发明公开一种基于可供性‑场景知识提示的人‑物交互检测方法及装置,能够提高在现实场景中的识别能力,预测更准确的HOI检测结果。方法包括:(1)构建可供性‑场景知识图谱ASKG;(2)搭建人‑物交互检测模型:在训练阶段,输入为一张RGB图像,第一阶段检测人和物体,识别场景类别和编码原始特征;第二阶段,先验知识嵌入模块编码特定的知识嵌入,实例域适应性融合模块编码实例特征与知识嵌入得到实例感知特征,场景域适应性融合模块编码场景特征与知识嵌入得到场景感知特征,最后经过HOI识别模块输出结果;(3)执行图像的人‑物交互检测。
-
公开(公告)号:CN112365581A
公开(公告)日:2021-02-12
申请号:CN202011281969.2
申请日:2020-11-17
Applicant: 北京工业大学
IPC: G06T17/00
Abstract: 一种基于RGB数据的单视角和多视角三维重建方法及装置,能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。方法包括:(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
-
公开(公告)号:CN118968063A
公开(公告)日:2024-11-15
申请号:CN202411023864.5
申请日:2024-07-29
Applicant: 北京工业大学
IPC: G06V10/26 , G06V10/74 , G06V10/764 , G06V10/80 , G06V10/774 , G06N3/0455 , G06N3/0464 , G06N3/0499 , G06N3/048 , G06N3/098
Abstract: 本发明公开一种基于物体形状掩膜提示的开放词汇可供性分割方法及装置,能够解决复杂场景中对象相邻部件像素之间的干扰、小尺寸对象分割以及无法推广到开放世界的问题。方法包括:(1)生成物体形状掩膜提示;(2)掩膜提示特征增强;(3)可供性预测。
-
公开(公告)号:CN117710430A
公开(公告)日:2024-03-15
申请号:CN202311576097.6
申请日:2023-11-23
Applicant: 北京工业大学
Abstract: 一种基于RGB数据的多视图三维物体重建方法及装置,能够提高基于图像的三维物体重建,增强语义信息和视觉信息之间的信息交互,得到一个更加可靠和可信的带有精细细节的三维形状。方法包括:(1)通过一个文本生成方法构建文本描述,然后进行特征提取,通过对齐文本和形状特征空间探索更广阔的语义空间,提取语义和几何一致的潜在特征;(2)使用transformer去获取视图之间的相关性,并且使用交叉注意力去增强文本和图像两个模态之间的信息提取;(3)得到增强特征后,将其分别送入到图像解码器和文本解码器生成对应的三维体素,这两个不同模态生成的三维体素有不同的焦点,融合这两种体素来进行三维重建。
-
公开(公告)号:CN113538662B
公开(公告)日:2024-04-09
申请号:CN202110765943.3
申请日:2021-07-05
Applicant: 北京工业大学
Abstract: 一种基于RGB数据的单视角三维物体重建方法及装置,能够将对象三维重建任务转换成基底系数矩阵的生成问题,挖掘可见部分和遮挡部分形状之间的关系,从而得到具有精确细节信息的三维体素,提升了三维模型重建精度。方法包括:(1)建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间,经编码‑解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。(2)建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建。
-
公开(公告)号:CN112365581B
公开(公告)日:2024-04-09
申请号:CN202011281969.2
申请日:2020-11-17
Applicant: 北京工业大学
IPC: G06T17/00
Abstract: 一种基于RGB数据的单视角和多视角三维重建方法及装置,能够充分利用输入图像的个性特征和其属于特定类别的共性特征,以及物体自身的几何信息来增强三维重建效果,能够获得高精度的三维重建结果。方法包括:(1)融合输入视角的个性化特征和其所属类别的共性化特征,重建得到初始化的三维体素;(2)在初始化的三维体素基础上,利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建,基于体素注意力图结构,利用多尺度图卷积对初始体素进行细化处理。
-
公开(公告)号:CN113538662A
公开(公告)日:2021-10-22
申请号:CN202110765943.3
申请日:2021-07-05
Applicant: 北京工业大学
Abstract: 一种基于RGB数据的单视角三维物体重建方法及装置,能够将对象三维重建任务转换成基底系数矩阵的生成问题,挖掘可见部分和遮挡部分形状之间的关系,从而得到具有精确细节信息的三维体素,提升了三维模型重建精度。方法包括:(1)建立从潜在特征到初始三维体素的生成模型,该潜在特征由基底和系数线性组合而成。令训练集中的样本张成形状空间,经编码‑解码后得到其形状潜空间,对其进行矩阵分解求得基底表示Θ;利用系数回归网络实现系数回归任务,将测试集中的图像再经编码过程回归其对应形状的系数矩阵Y;则基底Θ和系数Y的线性组合实现基于图像的三维模型重建。(2)建模体素数据为切片数据,利用设计的切片Transformer对初始三维体素进行细化处理,实现基于图像的精细化三维模型重建。
-
-
-
-
-
-