-
公开(公告)号:CN117473279A
公开(公告)日:2024-01-30
申请号:CN202311297418.9
申请日:2023-10-08
申请人: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC分类号: G06F18/21 , G06F18/214 , G06F16/583 , G06F16/532 , G06F16/332 , G06N3/0455 , G06N5/04 , G06N5/022
摘要: 本发明属于人机交互技术领域,提供了基于问题类型感知的测试时VQA模型去偏方法及系统。其中,基于问题类型感知的测试时VQA模型去偏方法包括从测试集中依次选择一组数据作为正样本并建立负样本;每个样本所对应的问题类型自适应匹配不同答案熵值变化率阈值;使用经过训练集训练的VQA模型去预测正样本及负样本的答案;计算预测的正样本和负样本的答案熵值,采用自适应熵值最小化方法判断各个样本的可靠性;计算可靠样本的答案熵值变化率,再与对应类型问题的答案熵值变化率阈值比较来判断样本是否存在偏差,采用无偏差的样本来优化预训练VQA模型,直到预测完所有的测试集数据。其能够减轻测试集中的语言偏差样本对模型适配的影响。
-
公开(公告)号:CN116912837A
公开(公告)日:2023-10-20
申请号:CN202310784642.4
申请日:2023-06-29
申请人: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC分类号: G06V30/148 , G06V20/62 , G06V30/166 , G06V30/18 , G06V30/19
摘要: 本发明提出了一种基于细节和边界驱动的指代目标图像分割方法及系统,包括:获取所需的场景图片和文本描述数据,所述文本描述数据为对所需目标的语言描述;对获取的数据进行预处理,包括:将获取的场景图片进行预处理得到归一化后的图片数据,将文本描述数据编码成向量;将预处理后的数据进行语言特征提取、视觉特征提取和多模态交互对齐,并使用边界、细节和显著性检测方法对特征进行融合增强,获得高质量的指代目标掩码,实现指代目标图像分割。
-
公开(公告)号:CN117197458A
公开(公告)日:2023-12-08
申请号:CN202311132221.X
申请日:2023-09-04
申请人: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC分类号: G06V10/26 , G06V10/774 , G06V10/25 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/09
摘要: 本发明公开一种基于属性感知的机器人指代分割和抓取检测方法及系统,包括:对场景图像提取多尺度视觉特征,对指代目标的文本描述提取词级特征;对平均池化后的多尺度视觉特征和词级特征采用跨模态点积注意力操作得到交互特征,且通过自顶向下的方式与多尺度视觉特征连接后得到指代目标的多尺度视觉属性特征;根据最后一层视觉属性特征计算分割掩码;以分割掩码为约束,根据最后一层视觉特征和多尺度视觉属性特征提取指代目标的抓取特征,并以此预测抓取位置、宽度和抓取角度,从而得到最优抓取姿态。不仅考虑多模态特征的交互和对齐,还考虑对指代目标视觉属性的提取以促进抓取姿态的精细化,有效提高指代分割和抓取检测的精度。
-
公开(公告)号:CN118038221A
公开(公告)日:2024-05-14
申请号:CN202410042419.7
申请日:2024-01-10
申请人: 山东大学 , 山东正晨科技股份有限公司 , 山东芯辰人工智能科技有限公司
IPC分类号: G06V10/80 , G06V10/25 , G06V10/26 , G06V10/764 , G06V10/766 , G06V10/82
摘要: 本发明公开了基于多源知识驱动的目标物体抓取方法及系统,其中方法,包括:获取待抓取物体所处的场景图像以及待抓取物体的自然语言描述;对场景图像和自然语言描述分别进行预处理;将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码;基于待抓取物体的分割掩码,确定机器人的最佳抓握姿势;基于最佳抓握姿势,确定机器人的操作位姿。一方面通过CLIP的隐式知识促进多模态特征的融合、交互和对齐,另一方面通过ChatGPT的显示知识增强实体的语义信息,有效提高了语言条件分割和抓取检测的精度。
-
-
-