基于关系对齐的视觉问答方法、装置、设备、介质及产品

    公开(公告)号:CN118211657A

    公开(公告)日:2024-06-18

    申请号:CN202410221827.9

    申请日:2024-02-28

    Inventor: 谢雪梅 方冕

    Abstract: 本发明公开了一种基于关系对齐的视觉问答方法、装置、设备、介质及产品,包括:获取大规模数据集中图像的视觉目标特征、文本目标标签、语言特征、视觉关系特征和文本关系标签,对预设模型的编码器进行预训练任务的学习,得到预训练完成的模型参数;其中预训练任务包括实体对齐任务、关系对齐任务、全局对齐任务和跨模态对齐任务,分别用于预训练编码器中的物体编码器、关系编码器、语言编码器和跨模态编码器;根据参数进行视觉问答模型的微调,修改问题的输入方式并对视觉问答训练样本进行训练,得到目标视觉问答模型;输入待测图像和问题文本到目标视觉问答模型,得到视觉问答结果。采用本发明实施例,能够学习关系信息,提高视觉问答的准确性。

    一种智能交互行为监测方法、系统、设备和存储介质

    公开(公告)号:CN118097774A

    公开(公告)日:2024-05-28

    申请号:CN202410110969.8

    申请日:2024-01-25

    Abstract: 本发明涉及智能行为监控技术领域,公开了一种智能交互行为监测方法、系统、设备和存储介质,所述方法包括基于监测场景,采用视觉分析和语义提取,构建场景知识库,所述场景知识库包括实体属性数据和实体间关系数据;采用预设更新方式,对所述场景知识库进行动态更新,所述预设更新方式包括自动化捕捉更新和人机交互提示更新;响应于预先设置的监测指令被动态更新结果所触发,发出监测告警。本发明通过综合利用多模态信息,包括视觉和语言,以及采用大模型的辅助,提高了智能交互行为监测方法的场景理解能力、适应性和用户交互体验。

    一种基于大模型的人机交互方法、装置及介质

    公开(公告)号:CN117992587A

    公开(公告)日:2024-05-07

    申请号:CN202410084390.9

    申请日:2024-01-19

    Abstract: 本发明公开了一种基于大模型的人机交互方法、装置及介质,应用于工业产线上的人机问答系统,所述方法包括:获取用户输入的问题,在场景问答模式下,采用大模型对问题的文本进行结构化解析,得到问题的问题类型;其中,问题类型包括步骤类型、物体属性类型、物体定义类型、验证类型以及其他类型;根据问题类型以及用户选择的场景,获取摄像头采集的视觉信息以及预先构建的知识库,并基于大模型,输出问题对应的回答;其中,当问题类型为其他类型时,先采用大模型对问题进行回答,再输出与知识库相关的引导信息以及推荐信息。本发明能够针对不同类别的问题提供更加精确和专业的回答,实现了全面的互动式问答,提高了系统的效率,增强了用户体验。

    一种问题图像三元组结构化引导的视觉问答方法和装置

    公开(公告)号:CN116401348A

    公开(公告)日:2023-07-07

    申请号:CN202310261086.2

    申请日:2023-03-16

    Abstract: 本发明涉及了一种问题图像三元组结构化引导的视觉问答方法和装置,该方法包括:获取目标图像和针对目标图像的目标问题;利用第一目标模型提取目标问题的问题全局特征、多个问题属性三元组特征和多个问题关系三元组特征;利用第二目标模型分别提取目标图像的多个图像属性三元组特征;利用目标注意力模型分别确定各个图像属性三元组特征与各个问题属性三元组特征的第一相关度,并将多个第一相关度组成属性注意力权重矩阵;将目标图像属性三元组特征、目标图像关系三元组特征以及问题全局特征进行拼接后输入目标答案分类器中,得到目标问题的答案信息。本方案在保证问题三元组的顺序结构下实现了多模态特征对齐和融合,提高了输出答案的准确度。

    一种面向物料安装的分类数据集构建方法及装置

    公开(公告)号:CN116452917A

    公开(公告)日:2023-07-18

    申请号:CN202310373818.7

    申请日:2023-04-07

    Abstract: 本申请实施例提供了一种面向物料安装的分类数据集构建方法及装置,通过对物料安装过程视频流图像的边缘特征识别,将原视频切割为物料安装操作状态和未操作状态两个分类属性的视频块;再对未操作状态属性的视频块基于RGB颜色直方图与标准图像的RGB颜色直方图相似度的计算后,通过比对类别而进一步切割,获取物料已安装属性的视频块和物料未安装的视频块;再将各切割后的视频块内对应的视频帧全部标记为所属视频块的属性,生成物料安装的分类数据集。本申请实现了基于机器视觉的视频帧批量标注,大幅节约了构建物料安装的分类数据集以往需要的人工标注操作,在节约人力资源和时间成本的同时,保证了数据标注的稳定性和数据集的精准度。

    基于程序链的视觉问答方法、装置、设备、介质及产品

    公开(公告)号:CN118365919A

    公开(公告)日:2024-07-19

    申请号:CN202410236499.X

    申请日:2024-03-01

    Inventor: 谢雪梅 刘勇

    Abstract: 本发明公开了一种基于程序链的视觉问答方法、装置、设备、介质及产品,包括:基于Transformer模型,对问题进行解析得到步骤特征向量,根据步骤特征向量获取对应的语义操作,得到程序链;基于目标检测模型、属性检测模型和关系检测模型,获取图像的视觉特征和文本语义特征,并通过注意力网络进行对齐任务的学习,得到跨模态的联合特征空间;基于注意力网络和程序链,根据步骤特征向量和联合特征空间对问题进行多步推理,得到答案,完成一张图像的训练;重复上述步骤,直至完成所有图像的训练,得到目标视觉问答模型;输入待测图像和问题文本到目标视觉问答模型,得到视觉问答结果。采用本发明实施例,能够提高视觉问答结果的准确性。

Patent Agency Ranking