-
公开(公告)号:CN117992587A
公开(公告)日:2024-05-07
申请号:CN202410084390.9
申请日:2024-01-19
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06F16/332 , G06N5/04 , G06F16/35
Abstract: 本发明公开了一种基于大模型的人机交互方法、装置及介质,应用于工业产线上的人机问答系统,所述方法包括:获取用户输入的问题,在场景问答模式下,采用大模型对问题的文本进行结构化解析,得到问题的问题类型;其中,问题类型包括步骤类型、物体属性类型、物体定义类型、验证类型以及其他类型;根据问题类型以及用户选择的场景,获取摄像头采集的视觉信息以及预先构建的知识库,并基于大模型,输出问题对应的回答;其中,当问题类型为其他类型时,先采用大模型对问题进行回答,再输出与知识库相关的引导信息以及推荐信息。本发明能够针对不同类别的问题提供更加精确和专业的回答,实现了全面的互动式问答,提高了系统的效率,增强了用户体验。
-
公开(公告)号:CN118366080A
公开(公告)日:2024-07-19
申请号:CN202410490061.4
申请日:2024-04-23
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
Abstract: 本申请公开了一种基于多模态模型的时空动态场景图构建方法及系统,方法包括:采用帧差法对原始视频进行采样,得到视频的候选帧;利用预先设立的多模态模型提取所述候选帧的多模态特征,并将多模态特征与预先设立的类别库进行匹配,识别得到实体;对实体间的关系进行推理,得到实体间的交互关系;对实体进行分层映射,并将实体间的交互关系融入对应层级的实体之间,形成时空动态场景图;所述对实体进行分层映射是将实体映射至场景层、对象层和部件层。本申请通过多模态模型有效地将视频中的实体、实体之间的时空关系进行精准地捕捉、分析和表示,以更精确构建出能够反映实际动态场景的结构化场景图。
-
公开(公告)号:CN117994843A
公开(公告)日:2024-05-07
申请号:CN202410110464.1
申请日:2024-01-25
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
Abstract: 本发明公开了一种基于大模型的行为识别方法、装置、设备及存储介质,包括:获取规范行为视频,基于帧差法和人工挑选得到视频中各个动作的图片序列帧;基于大模型,根据预设的动作基元库对图片序列帧进行归一化处理,再通过给定提示,分别为处理后的各个图片序列帧生成文本内容,得到动作描述标准库;基于帧差法和人工挑选得到待识别视频中各个动作的待识别图片序列帧并输入到大模型,通过给定提示为待识别图片序列帧生成文本内容,得到待识别图片序列描述,并将其与动作描述标准库中的各个文本内容进行相似度匹配,以识别待识别图片序列描述对应的动作。采用本发明实施例,能降低工业场景中行为识别的时间成本,提高识别的效率、灵活性和准确率。
-
公开(公告)号:CN117912114A
公开(公告)日:2024-04-19
申请号:CN202410080297.0
申请日:2024-01-19
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06V40/20 , G06V20/40 , G06F16/783
Abstract: 本发明公开了一种基于大模型的关键帧提取方法、装置、设备及存储介质,包括:获取第一视频数据,基于语音识别技术和大模型,对所述第一视频数据进行分割,得到第二视频数据和对应的文本描述;采用帧差法,从所述第二视频数据中提取候选帧;基于大模型和提示,根据所述文本描述,从所述候选帧中提取表示动作的开始、中间、结束这三个状态的关键帧。采用本发明实施例,能够自动、准确地从视频中提取关键帧,这些关键帧不仅数量适中,而且能够代表视频中的主要动作和事件,并且无需对大模型的参数进行调整,避免了人工干预,从而大幅提高了关键帧自动提取效率,降低成本。
-
公开(公告)号:CN117973536A
公开(公告)日:2024-05-03
申请号:CN202410066288.6
申请日:2024-01-16
Applicant: 琶洲实验室(黄埔)
Abstract: 本发明公开了一种工业场景的知识推理方法、装置和设备,包括获取用户的问题,将所述用户的问题结构化,得到结构化问题;所述结构化问题包括从所述用户的问题中提取出的实体和所述实体间的关系;将所述结构化问题映射到本地知识库,将所述本地知识库中被激活的节点作为知识子图;所述本地知识库为所述工业场景的知识库;根据所述知识子图和所述结构化问题,生成所述用户的问题的推理关系通路;所述推理关系通路用于表示从所述知识子图映射到所述结构化问题的逻辑通路;结合所述知识子图和和所述推理关系通路进行工业场景的知识推理,得到知识推理的结果。采用本发明实施例,能够在快速变化的工业场景下完成准确的知识推理。
-
公开(公告)号:CN119526407A
公开(公告)日:2025-02-28
申请号:CN202411785175.8
申请日:2024-12-06
Applicant: 琶洲实验室(黄埔)
IPC: B25J9/16
Abstract: 本申请涉及具身智能技术领域,公开了一种具身机器人任务规划方法、系统、控制器及具身机器人,该方法包括:基于层级场景图和任务知识库,对具身机器人的任务指令进行任务解耦和规划,得到初步任务规划;根据初步任务规划控制具身机器人执行子任务,并反馈初步执行结果;在初步执行结果表示具身机器人完成初步任务规划但未完成任务指令的情况下,判断层级场景图中是否存在候补执行对象;在层级场景图中存在候补执行对象的情况下,根据候补执行对象进行动态规划调整,得到调整任务规划。本申请的有益效果在于,提高具身机器人对实际环境的感知能力,从而能够根据实际环境对任务规划进行调整,提高具身机器人的任务执行效果。
-
-
-
-
-