-
公开(公告)号:CN118061186A
公开(公告)日:2024-05-24
申请号:CN202410367785.X
申请日:2024-03-28
申请人: 山东大学
IPC分类号: B25J9/16
摘要: 本发明提出了一种基于多模态大模型预测控制的机器人规划方法及系统,利用多模态大模型强大视觉推理和视觉定位能力,通过机器人运动的目标图像或文本指令,以及机器人当前观测图像来采样候选动作序列,然后对采样候选动作序列预测未来状态视频,来指导机器人操作,旋转和与场景物体互动的复杂路径规划,避免了手动设计基础动作和技能的需要,并突破了之前基于多模态大模型的方法只能组成没有预见性的粗略轨迹的限制,实现基于未来状态预测的机器人控制规划。
-
公开(公告)号:CN116737899A
公开(公告)日:2023-09-12
申请号:CN202310691898.0
申请日:2023-06-12
申请人: 山东大学
IPC分类号: G06F16/332 , G06F16/33 , G06F40/30 , G06N5/04
摘要: 本发明公开了基于常识信息辅助的视觉自然语言导航方法及系统,属于视觉语言导航技术领域。本发明借鉴语义推理的思想,对输入的指令信息进行特征提取,对这些特征信息进行推理和添加常识性信息作为额外信息输入参与决策;利用跨模态Transformer,将输入的语言指令、环境输入和扩充信息聚合,获取目标预测点,进行智能体的行动控制;能够提高视觉自然语言导航的准确性。解决了现有技术中存在“不能使智能体真正理解语言中语义信息与实际场景之间的关系”的问题。
-
公开(公告)号:CN112734803B
公开(公告)日:2023-03-24
申请号:CN202011642602.9
申请日:2020-12-31
申请人: 山东大学
IPC分类号: G06T7/246 , G06V10/40 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/045 , G06N3/08
摘要: 本发明公开了基于文字描述的单目标跟踪方法、装置、设备及存储介质:对待跟踪视频按照设定帧数平均划分为若干个视频包;对文字描述提取出第一、二和三文字特征;对每个视频包的第n个采样帧分别提取第一、二和三视觉特征;基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;对搜索区域图像,分别提取第七,第八和第九视觉特征;将更新后的第一、第二和第三文字特征向量,分别与第四到第九视觉特征进行融合,得到融合特征;根据融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
-
公开(公告)号:CN116737899B
公开(公告)日:2024-01-26
申请号:CN202310691898.0
申请日:2023-06-12
申请人: 山东大学
IPC分类号: G06F16/332 , G06F16/33 , G06F40/30 , G06N5/04
摘要: 本发明公开了基于常识信息辅助的视觉自然语言导航方法及系统,属于视觉语言导航技术领域。本发明借鉴语义推理的思想,对输入的指令信息进行特征提取,对这些特征信息进行推理和添加常识性信息作为额外信息输入参与决策;利用跨模态Transformer,将输入的语言指令、环境输入和扩充信息聚合,获取目标预测点,进行智能体的行动控制;能够提高视觉自然语言导航的准确性。解决了现有技术中存在“不能使智能体真正理解语言中语义信息与实际场景之间的关系”的问题。
-
公开(公告)号:CN116872971A
公开(公告)日:2023-10-13
申请号:CN202310986664.9
申请日:2023-08-07
申请人: 山东大学
IPC分类号: B60W60/00
摘要: 本发明公开一种基于人机协同增强的自动驾驶控制决策方法及系统,包括:获取混合数据;所述混合数据包括驾驶员驾驶演示数据、车辆自行驶数据以及在车辆自行驶时,监督驾驶员接管控制的监督纠正动作;基于监督纠正动作,预测在当前监督纠正动作下的驾驶模拟数据,并对当前监督纠正动作进行评分,以确定以当前监督纠正动作接管控制后的驾驶数据与车辆自行驶数据间的差异在训练控制决策模型时所占的权重;基于混合数据对控制决策模型进行训练,并在有监督驾驶员接管控制时引入对应的权重,从而根据训练后的控制决策模型得到自动驾驶的控制策略。
-
公开(公告)号:CN112734803A
公开(公告)日:2021-04-30
申请号:CN202011642602.9
申请日:2020-12-31
申请人: 山东大学
摘要: 本发明公开了基于文字描述的单目标跟踪方法、装置、设备及存储介质:对待跟踪视频按照设定帧数平均划分为若干个视频包;对文字描述提取出第一、二和三文字特征;对每个视频包的第n个采样帧分别提取第一、二和三视觉特征;基于每个视频包第n个采样帧的第一、第二和第三视觉特征分别对第一、第二和第三文字特征进行更新,得到更新后的第一、第二和第三文字特征;对待跟踪目标的样板图像,分别提取第四、第五和第六视觉特征;对搜索区域图像,分别提取第七,第八和第九视觉特征;将更新后的第一、第二和第三文字特征向量,分别与第四到第九视觉特征进行融合,得到融合特征;根据融合特征,得到待跟踪视频的当前视频包中每一帧的目标跟踪结果。
-
-
-
-
-