一种基于同等注意力图网络的视觉问答方法

    公开(公告)号:CN112905762B

    公开(公告)日:2024-07-26

    申请号:CN202110163405.7

    申请日:2021-02-05

    摘要: 本发明公开了一种基于同等注意力图网络的视觉问答方法,包括以下步骤,首先,提取输入图像的区域目标特征,将图像转换成图表示,并对输入的问题进行编码;然后,建立一个基于图网络的视觉问答模型,将处理过程划分为两个阶段:第一阶段对图表示应用同等注意力机制,得到新的节点特征与关系边特征,第二阶段将第一阶段得到的节点特征与关系边特征融合成图特征,并与问题交互得到新的图特征,最终将得到的图特征与问题共同推断出答案。本发明实施于图像视觉问答,相比于利用整体图像特征的传统方法或是忽略关系重要性的其他图网络视觉问答方法,采用本发明的技术方案将有效提升视觉问答模型的性能。

    一种基于场景先验知识的人体行为识别方法

    公开(公告)号:CN112560668A

    公开(公告)日:2021-03-26

    申请号:CN202011470438.8

    申请日:2020-12-14

    摘要: 本发明公开了一种基于场景先验知识的人体行为识别方法,包括以下步骤:对输入视频进行预处理;建立室内场景‑人体行为先验知识库;建立视频场景识别模型和人体行为识别模型M;对输入视频进行场景预测,基于场景识别的结果,将对应的场景先验知识融合到人体行为识别网络模型M中,得到人体行为分类。本发明能够充分利用场景与人体活动的相关性,通过将先验知识转换成行为识别模型中对权值的约束,优化目标函数,有效提高视频中人体行为识别的效果。

    一种基于场景先验知识的人体行为识别方法

    公开(公告)号:CN112560668B

    公开(公告)日:2024-10-15

    申请号:CN202011470438.8

    申请日:2020-12-14

    摘要: 本发明公开了一种基于场景先验知识的人体行为识别方法,包括以下步骤:对输入视频进行预处理;建立室内场景‑人体行为先验知识库;建立视频场景识别模型和人体行为识别模型M;对输入视频进行场景预测,基于场景识别的结果,将对应的场景先验知识融合到人体行为识别网络模型M中,得到人体行为分类。本发明能够充分利用场景与人体活动的相关性,通过将先验知识转换成行为识别模型中对权值的约束,优化目标函数,有效提高视频中人体行为识别的效果。

    一种基于同等注意力图网络的视觉问答方法

    公开(公告)号:CN112905762A

    公开(公告)日:2021-06-04

    申请号:CN202110163405.7

    申请日:2021-02-05

    摘要: 本发明公开了一种基于同等注意力图网络的视觉问答方法,包括以下步骤,首先,提取输入图像的区域目标特征,将图像转换成图表示,并对输入的问题进行编码;然后,建立一个基于图网络的视觉问答模型,将处理过程划分为两个阶段:第一阶段对图表示应用同等注意力机制,得到新的节点特征与关系边特征,第二阶段将第一阶段得到的节点特征与关系边特征融合成图特征,并与问题交互得到新的图特征,最终将得到的图特征与问题共同推断出答案。本发明实施于图像视觉问答,相比于利用整体图像特征的传统方法或是忽略关系重要性的其他图网络视觉问答方法,采用本发明的技术方案将有效提升视觉问答模型的性能。