-
公开(公告)号:CN117197458A
公开(公告)日:2023-12-08
申请号:CN202311132221.X
申请日:2023-09-04
Applicant: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC: G06V10/26 , G06V10/774 , G06V10/25 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/09
Abstract: 本发明公开一种基于属性感知的机器人指代分割和抓取检测方法及系统,包括:对场景图像提取多尺度视觉特征,对指代目标的文本描述提取词级特征;对平均池化后的多尺度视觉特征和词级特征采用跨模态点积注意力操作得到交互特征,且通过自顶向下的方式与多尺度视觉特征连接后得到指代目标的多尺度视觉属性特征;根据最后一层视觉属性特征计算分割掩码;以分割掩码为约束,根据最后一层视觉特征和多尺度视觉属性特征提取指代目标的抓取特征,并以此预测抓取位置、宽度和抓取角度,从而得到最优抓取姿态。不仅考虑多模态特征的交互和对齐,还考虑对指代目标视觉属性的提取以促进抓取姿态的精细化,有效提高指代分割和抓取检测的精度。
-
公开(公告)号:CN117093748A
公开(公告)日:2023-11-21
申请号:CN202310744391.7
申请日:2023-06-21
Applicant: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC: G06F16/783 , G06N3/045 , G06N3/0895
Abstract: 本发明属于视频定位领域,提供了基于多层面多模态对齐的弱监督视频定位方法与系统。其中该定位方法包括编码文本和若干段视频信息并进行融合,映射得到若干节点对,对与节点对数量相同的视频信息编码表示进行掩码,得到视频片段特征;依次对文本信息进行掩码、编码及模态对齐视频片段特征;生成被掩盖掉的文本信息,计算出文本与视频对齐重构损失函数,再结合名词对象层面、动作层面及事件层面的模态对齐重构损失函数,得到总重构损失函数;以总重构损失函数最小化为策略定位的视频片段特征,作为文本信息对应的视频片段。其在考虑整体文本信息与视频对齐的同时,还从动词、名词、事件等层面进行更加细粒度的模态对齐,达到提升预测精度的目的。
-
公开(公告)号:CN116911252A
公开(公告)日:2023-10-20
申请号:CN202310755987.7
申请日:2023-06-25
Applicant: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC: G06F40/126 , G06F40/295 , G06F40/117 , G06N3/0464 , G06N3/088
Abstract: 本发明公开一种基于关系注意力增强和词性掩码的实体关系联合抽取方法,包括:对自然语句和关系名序列分别进行分词并拼接后得到分词标记序列;提取分词标记序列的词编码特征,进行关系预测,得到候选关系列表;对自然语句进行词性标注,和句子分词标记对齐后得到词性对齐序列,从而生成多层掩码;将多层掩码引入至多头注意力模块中,将多层注意力矩阵划分为实体抽取预测表和关系三元组预测表,从而分别进行实体抽取结果和关系三元组预测。在考虑实体对关系抽取作用的同时,兼顾关系对实体抽取的辅助作用,同时引入词性信息,提高对实体抽取的准确度。
-
公开(公告)号:CN117473279A
公开(公告)日:2024-01-30
申请号:CN202311297418.9
申请日:2023-10-08
Applicant: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC: G06F18/21 , G06F18/214 , G06F16/583 , G06F16/532 , G06F16/332 , G06N3/0455 , G06N5/04 , G06N5/022
Abstract: 本发明属于人机交互技术领域,提供了基于问题类型感知的测试时VQA模型去偏方法及系统。其中,基于问题类型感知的测试时VQA模型去偏方法包括从测试集中依次选择一组数据作为正样本并建立负样本;每个样本所对应的问题类型自适应匹配不同答案熵值变化率阈值;使用经过训练集训练的VQA模型去预测正样本及负样本的答案;计算预测的正样本和负样本的答案熵值,采用自适应熵值最小化方法判断各个样本的可靠性;计算可靠样本的答案熵值变化率,再与对应类型问题的答案熵值变化率阈值比较来判断样本是否存在偏差,采用无偏差的样本来优化预训练VQA模型,直到预测完所有的测试集数据。其能够减轻测试集中的语言偏差样本对模型适配的影响。
-
公开(公告)号:CN116912837A
公开(公告)日:2023-10-20
申请号:CN202310784642.4
申请日:2023-06-29
Applicant: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC: G06V30/148 , G06V20/62 , G06V30/166 , G06V30/18 , G06V30/19
Abstract: 本发明提出了一种基于细节和边界驱动的指代目标图像分割方法及系统,包括:获取所需的场景图片和文本描述数据,所述文本描述数据为对所需目标的语言描述;对获取的数据进行预处理,包括:将获取的场景图片进行预处理得到归一化后的图片数据,将文本描述数据编码成向量;将预处理后的数据进行语言特征提取、视觉特征提取和多模态交互对齐,并使用边界、细节和显著性检测方法对特征进行融合增强,获得高质量的指代目标掩码,实现指代目标图像分割。
-
公开(公告)号:CN116541490A
公开(公告)日:2023-08-04
申请号:CN202310324898.7
申请日:2023-03-27
Applicant: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC: G06F16/332 , G06F16/783 , G06F40/284 , G06V20/40 , G06F18/25 , G06N3/0442 , G06N3/08
Abstract: 本发明属于服务机器人视频问答技术领域,提供云服务机器人的复杂场景视频问答方法及系统。其中,复杂场景视频问答方法包括获取问题文本信息及复杂场景视频,作为待查询的信息交互数据;从问题文本信息中提取所有动词及名词,从待交互的视频数据中提取物体动作信息和物体静态信息;融合动词和物体动作信息,得到视频框架特征;融合名词和物体静态信息,得到行为动作特征;将视频框架特征和行为动作特征这两个特征与先验数据集进行对比学习,从先验数据集中匹配出文本信息及定位出视频帧信息,进行多模态融合,得到融合预测结果;将待查询的信息交互数据与所述融合预测结果进行匹配,选取相似度最高的一组融合预测结果,作为视觉问答输出结果。
-
公开(公告)号:CN116524337A
公开(公告)日:2023-08-01
申请号:CN202310326414.2
申请日:2023-03-27
Applicant: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC: G06V20/00 , G06V10/764 , G06V10/40 , G06V10/80 , G06V10/82 , G06F16/36 , G06F16/901 , G06F18/22
Abstract: 本发明属于服务机器人视觉场景识别技术领域,提供了一种知识增强的多服务机器人物体类别识别方法及系统。其中,知识增强的多服务机器人物体类别识别方法获取机器人运行的场景图片,提取场景图片中的视觉信息特征图,得到场景图片中目标检测框及其物体类别的初步预测结果,并将所述视觉信息特征图转换成场景信息向量;选取预先构建的知识图谱中的信任目标标签节点,基于转换的场景信息向量及目标检测框信息组成匹配向量,计算所述匹配向量与以所述信任目标标签节点为起始的边的相似度,根据相似度大小确定出所述场景图片中物体类别的查询预测结果;将所述场景图片中物体类别的查询预测结果与初步预测结果进行融合,得到最终的物体类别识别结果。
-
公开(公告)号:CN118038221A
公开(公告)日:2024-05-14
申请号:CN202410042419.7
申请日:2024-01-10
Applicant: 山东大学 , 山东正晨科技股份有限公司 , 山东芯辰人工智能科技有限公司
IPC: G06V10/80 , G06V10/25 , G06V10/26 , G06V10/764 , G06V10/766 , G06V10/82
Abstract: 本发明公开了基于多源知识驱动的目标物体抓取方法及系统,其中方法,包括:获取待抓取物体所处的场景图像以及待抓取物体的自然语言描述;对场景图像和自然语言描述分别进行预处理;将预处理后的场景图像和自然语言描述,均输入到训练后的图像分割模型中,输出待抓取物体的分割掩码;基于待抓取物体的分割掩码,确定机器人的最佳抓握姿势;基于最佳抓握姿势,确定机器人的操作位姿。一方面通过CLIP的隐式知识促进多模态特征的融合、交互和对齐,另一方面通过ChatGPT的显示知识增强实体的语义信息,有效提高了语言条件分割和抓取检测的精度。
-
公开(公告)号:CN116935025A
公开(公告)日:2023-10-24
申请号:CN202310725696.3
申请日:2023-06-19
Applicant: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC: G06V10/24 , G06V10/764 , G06V10/774 , G06N5/02
Abstract: 本发明提出了基于概念学习与先验知识的指令抓取方法及系统,包括:训练已知物体的目标识别网络,并提供给已知物体的先验知识,使机械臂拥有部分物体的识别能力,并能够根据语言指令进行抓取;当语言指令要求抓取新类别物体时,机械臂定位不到新类别物体,将会要求根据规则提供语言知识;融合后的特征与原场景图像做交叉注意力,并关注到新类别物体上;若注意力没有关注到语言指令所指示的新类别物体或注意力错误,则机械臂继续询问以得到新知识的注入,经过不断循环,机械臂即可学会新类别物体的特征;当下一次语言指令要求机械臂抓取新类别物体时,机械臂直接进行抓取。
-
公开(公告)号:CN116521891A
公开(公告)日:2023-08-01
申请号:CN202310416046.0
申请日:2023-04-13
Applicant: 山东大学 , 山东芯辰人工智能科技有限公司 , 山东正晨科技股份有限公司
IPC: G06F16/36 , G06F16/332 , G06F40/30 , G06N5/02 , G06F18/25
Abstract: 本发明属于服务机器人知识补全学习技术领域,提供了一种基于层次化建模的云服务机器人知识图谱补全方法及系统。其中,该方法包括获取云服务机器人在对应场景下的知识图谱三元组信息;将知识图谱三元组信息以语义信息和结构信息这两个层次信息表示;将所述语义信息映射至语义测量空间,将所述结构信息映射至结构测量空间;从语义测量空间中提取知识图谱语义特征,从结构测量空间中提取知识图谱结构特征;融合知识图谱语义特征和知识图谱结构特征,并利用知识图谱链接预测得分网络处理融合特征,预测出知识图谱链接得分概率;筛选出得分概率最高的知识图谱链接输出,以补全所述知识图谱。
-
-
-
-
-
-
-
-
-