-
公开(公告)号:CN118211657A
公开(公告)日:2024-06-18
申请号:CN202410221827.9
申请日:2024-02-28
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06N5/04 , G06V20/70 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于关系对齐的视觉问答方法、装置、设备、介质及产品,包括:获取大规模数据集中图像的视觉目标特征、文本目标标签、语言特征、视觉关系特征和文本关系标签,对预设模型的编码器进行预训练任务的学习,得到预训练完成的模型参数;其中预训练任务包括实体对齐任务、关系对齐任务、全局对齐任务和跨模态对齐任务,分别用于预训练编码器中的物体编码器、关系编码器、语言编码器和跨模态编码器;根据参数进行视觉问答模型的微调,修改问题的输入方式并对视觉问答训练样本进行训练,得到目标视觉问答模型;输入待测图像和问题文本到目标视觉问答模型,得到视觉问答结果。采用本发明实施例,能够学习关系信息,提高视觉问答的准确性。
-
公开(公告)号:CN118097774A
公开(公告)日:2024-05-28
申请号:CN202410110969.8
申请日:2024-01-25
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
Abstract: 本发明涉及智能行为监控技术领域,公开了一种智能交互行为监测方法、系统、设备和存储介质,所述方法包括基于监测场景,采用视觉分析和语义提取,构建场景知识库,所述场景知识库包括实体属性数据和实体间关系数据;采用预设更新方式,对所述场景知识库进行动态更新,所述预设更新方式包括自动化捕捉更新和人机交互提示更新;响应于预先设置的监测指令被动态更新结果所触发,发出监测告警。本发明通过综合利用多模态信息,包括视觉和语言,以及采用大模型的辅助,提高了智能交互行为监测方法的场景理解能力、适应性和用户交互体验。
-
公开(公告)号:CN117992587A
公开(公告)日:2024-05-07
申请号:CN202410084390.9
申请日:2024-01-19
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06F16/332 , G06N5/04 , G06F16/35
Abstract: 本发明公开了一种基于大模型的人机交互方法、装置及介质,应用于工业产线上的人机问答系统,所述方法包括:获取用户输入的问题,在场景问答模式下,采用大模型对问题的文本进行结构化解析,得到问题的问题类型;其中,问题类型包括步骤类型、物体属性类型、物体定义类型、验证类型以及其他类型;根据问题类型以及用户选择的场景,获取摄像头采集的视觉信息以及预先构建的知识库,并基于大模型,输出问题对应的回答;其中,当问题类型为其他类型时,先采用大模型对问题进行回答,再输出与知识库相关的引导信息以及推荐信息。本发明能够针对不同类别的问题提供更加精确和专业的回答,实现了全面的互动式问答,提高了系统的效率,增强了用户体验。
-
公开(公告)号:CN116401348A
公开(公告)日:2023-07-07
申请号:CN202310261086.2
申请日:2023-03-16
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06F16/332 , G06F16/35 , G06F16/33 , G06F40/30 , G06F16/55
Abstract: 本发明涉及了一种问题图像三元组结构化引导的视觉问答方法和装置,该方法包括:获取目标图像和针对目标图像的目标问题;利用第一目标模型提取目标问题的问题全局特征、多个问题属性三元组特征和多个问题关系三元组特征;利用第二目标模型分别提取目标图像的多个图像属性三元组特征;利用目标注意力模型分别确定各个图像属性三元组特征与各个问题属性三元组特征的第一相关度,并将多个第一相关度组成属性注意力权重矩阵;将目标图像属性三元组特征、目标图像关系三元组特征以及问题全局特征进行拼接后输入目标答案分类器中,得到目标问题的答案信息。本方案在保证问题三元组的顺序结构下实现了多模态特征对齐和融合,提高了输出答案的准确度。
-
公开(公告)号:CN118483996A
公开(公告)日:2024-08-13
申请号:CN202410513206.8
申请日:2024-04-26
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G05D1/43 , G05D1/242 , G05D1/243 , G05D1/246 , G05D1/633 , G05D1/644 , G05D1/247 , G05D1/648 , G05D109/10
Abstract: 本发明公开了一种机器人自主导航方法、装置、设备及存储介质,方法包括:获取激光雷达数据,并进行同步定位与地图构建,得到基于障碍物的代价地图;获取场景信息,并进行层级化的结构化表达,构建场景认知库;根据所述代价地图和所述场景认知库,构建多模态语义地图;分别构建多模态物体特征认知库和机器人行为认知库,并进行关系融合,得到多元认知库;根据所述多模态语义地图与所述多元认知库,实现机器人的自主导航。采用本发明实施例,使机器人具备实时感知语义位置的能力,能够根据实时场景信息动态调整导航任务和实现基于自然语言发布的模糊导航任务,提高机器人自主导航的效率、准确性和灵活性。
-
公开(公告)号:CN117275089A
公开(公告)日:2023-12-22
申请号:CN202311210043.8
申请日:2023-09-19
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
Abstract: 本发明公开了一种单目摄像头的人物识别方法、装置、设备及存储介质,通过单目摄像头获取场景图像;对所述场景图像中的人物进行姿态估计,确定所述人物的关键点的像素坐标;根据所述单目摄像头的相机内部参数将所述像素坐标转换为真实坐标系的真实坐标;根据所述人物的关键点的真实坐标确定所述人物的动作向量;根据确定的动作向量识别所述人物的行为动作。本申请能够低成本、高精度的是实现室内人物的定位识别。
-
公开(公告)号:CN116912512A
公开(公告)日:2023-10-20
申请号:CN202310864222.7
申请日:2023-07-13
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06V10/44 , G06V10/774 , G06V10/82 , G06N3/04
Abstract: 本发明公开了一种物体6D姿态估计方法、装置、设备及存储介质,通过将待检测图像中的目标物体根据空间结构拆解为基本几何体部件的组合,得到简化部件模型的目标图像;采用预先训练的部件检测器获取所述简化部件模型的部件检测框,将所述部件检测框间的相对几何关系构建成节点特征;采用预先训练得到的图神经网络输出所述部件检测框的邻接矩阵;将所述邻接矩阵和所述节点特征组合为结构特征,采用预设的姿态预测头输出所述结构特征对应的6D姿态。无需预先获取目标物体的三维模型,高效、低成本地实现物体6D姿态估计。
-
公开(公告)号:CN116452917A
公开(公告)日:2023-07-18
申请号:CN202310373818.7
申请日:2023-04-07
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06V10/774 , G06V20/70 , G06V20/40 , G06V10/22 , G06V10/764 , G06V10/74 , G06V10/44
Abstract: 本申请实施例提供了一种面向物料安装的分类数据集构建方法及装置,通过对物料安装过程视频流图像的边缘特征识别,将原视频切割为物料安装操作状态和未操作状态两个分类属性的视频块;再对未操作状态属性的视频块基于RGB颜色直方图与标准图像的RGB颜色直方图相似度的计算后,通过比对类别而进一步切割,获取物料已安装属性的视频块和物料未安装的视频块;再将各切割后的视频块内对应的视频帧全部标记为所属视频块的属性,生成物料安装的分类数据集。本申请实现了基于机器视觉的视频帧批量标注,大幅节约了构建物料安装的分类数据集以往需要的人工标注操作,在节约人力资源和时间成本的同时,保证了数据标注的稳定性和数据集的精准度。
-
公开(公告)号:CN118430059A
公开(公告)日:2024-08-02
申请号:CN202410469865.6
申请日:2024-04-18
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06V40/20 , G06V20/40 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种基于条件随机场的视频交互行为识别方法。包括:将获取到的视频样本分割为多个连续的视频段,提取每一所述视频段中每一帧的实体特征;将所述实体特征输入到视频人物交互模型中,输出概率分布;根据每一所述视频段归纳得到状态连接关系,将所述状态连接关系映射为转移矩阵;构建条件随机场,将所述概率分布作为所述条件随机场的发射分数,将所述转移矩阵作为所述条件随机场的转移分数;根据所述条件随机场,输出每一所述视频段对应的类别序列。能够充分利用深度学习的特征表示能力,提高了视频人物交互识别的效率和准确性。
-
公开(公告)号:CN118365919A
公开(公告)日:2024-07-19
申请号:CN202410236499.X
申请日:2024-03-01
Applicant: 西安电子科技大学广州研究院 , 琶洲实验室(黄埔)
IPC: G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82
Abstract: 本发明公开了一种基于程序链的视觉问答方法、装置、设备、介质及产品,包括:基于Transformer模型,对问题进行解析得到步骤特征向量,根据步骤特征向量获取对应的语义操作,得到程序链;基于目标检测模型、属性检测模型和关系检测模型,获取图像的视觉特征和文本语义特征,并通过注意力网络进行对齐任务的学习,得到跨模态的联合特征空间;基于注意力网络和程序链,根据步骤特征向量和联合特征空间对问题进行多步推理,得到答案,完成一张图像的训练;重复上述步骤,直至完成所有图像的训练,得到目标视觉问答模型;输入待测图像和问题文本到目标视觉问答模型,得到视觉问答结果。采用本发明实施例,能够提高视觉问答结果的准确性。
-
-
-
-
-
-
-
-
-