-
公开(公告)号:CN117953589B
公开(公告)日:2024-07-05
申请号:CN202410354224.6
申请日:2024-03-27
IPC: G06V40/20 , G06V10/22 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/082 , G06N3/096
Abstract: 本发明涉及一种交互动作检测方法、系统、设备及介质,方法包括:获取待测三元交互动作图像;对待测三元交互动作图像进行特征提取,获得至少一个第一人物框、至少一个第一工具框和至少一个第一物体框;若任意一个第一人物框、任意一个第一工具框和任意一个第一物体框三个框具有第一重合区域,则将每个第一重合区域对应的三个框组合而成的区域作为一个交互动作检测候选框;对每个交互动作检测候选框进行识别,确定每个交互动作检测候选框对应的交互动作类别。解决了目前的动作交互动作检测方法只能检测出当前图像场景中人与物体的交互动作,无法检测出人、工具与物体之间的三元交互动作的问题。
-
公开(公告)号:CN117953590B
公开(公告)日:2024-07-05
申请号:CN202410354226.5
申请日:2024-03-27
Applicant: 武汉工程大学 , 湖北文理学院 , 中国电力科学研究院有限公司
IPC: G06V40/20 , G06V10/22 , G06V10/764 , G06V10/80 , G06V10/77 , G06V10/82 , G06N3/0455 , G06N3/082
Abstract: 本发明涉及一种三元交互动作检测方法、系统、设备及介质,方法包括:获取待测三元关系交互动作图像;确定待测三元关系交互动作图像的降维特征图;为降维特征图上每个预设区域添加位置信息,确定全局信息图;利用预设的多头注意力机制,将全局信息图和预设的查询规则进行融合,确定预测交互动作信息;将预测交互动作信息转换为三元检测框信息和交互动作类别。解决了现有技术无法对三元交互动作信息进行完整的描述,不仅降低了预测出的该交互动作信息的区域范围的准确性,还降低了该交互动作信息对应的交互动作类别的准确性的问题。
-
公开(公告)号:CN117953590A
公开(公告)日:2024-04-30
申请号:CN202410354226.5
申请日:2024-03-27
Applicant: 武汉工程大学 , 湖北文理学院 , 中国电力科学研究院有限公司
IPC: G06V40/20 , G06V10/22 , G06V10/764 , G06V10/80 , G06V10/77 , G06V10/82 , G06N3/0455 , G06N3/082
Abstract: 本发明涉及一种三元交互动作检测方法、系统、设备及介质,方法包括:获取待测三元关系交互动作图像;确定待测三元关系交互动作图像的降维特征图;为降维特征图上每个预设区域添加位置信息,确定全局信息图;利用预设的多头注意力机制,将全局信息图和预设的查询规则进行融合,确定预测交互动作信息;将预测交互动作信息转换为三元检测框信息和交互动作类别。解决了现有技术无法对三元交互动作信息进行完整的描述,不仅降低了预测出的该交互动作信息的区域范围的准确性,还降低了该交互动作信息对应的交互动作类别的准确性的问题。
-
公开(公告)号:CN117953589A
公开(公告)日:2024-04-30
申请号:CN202410354224.6
申请日:2024-03-27
IPC: G06V40/20 , G06V10/22 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/082 , G06N3/096
Abstract: 本发明涉及一种交互动作检测方法、系统、设备及介质,方法包括:获取待测三元交互动作图像;对待测三元交互动作图像进行特征提取,获得至少一个第一人物框、至少一个第一工具框和至少一个第一物体框;若任意一个第一人物框、任意一个第一工具框和任意一个第一物体框三个框具有第一重合区域,则将每个第一重合区域对应的三个框组合而成的区域作为一个交互动作检测候选框;对每个交互动作检测候选框进行识别,确定每个交互动作检测候选框对应的交互动作类别。解决了目前的动作交互动作检测方法只能检测出当前图像场景中人与物体的交互动作,无法检测出人、工具与物体之间的三元交互动作的问题。
-
公开(公告)号:CN114783053A
公开(公告)日:2022-07-22
申请号:CN202210300414.0
申请日:2022-03-24
Applicant: 武汉工程大学
Abstract: 本发明公开了一种基于空间注意力和分组卷积的行为识别方法及系统,该方法包括:稀疏采样:将输入的视频切帧后进行稀疏采样;构建网络结构,网络结构包括时空激励模块和运动激励模块两个分支:对于时空激励模块来说,首先将基于时序上的分组卷积加入到模块中,用于融合时序上的信息并且降低网络参数量;然后将空间注意力加入到模块中,使图像中较为重要的特征得到更好的提取;对于运动激励模块来说,使用多帧之间的差值来代替光流信息对运动特征进行建模;网络结构嵌入:利用网络结构替换resnet‑50中的残差块,得到行为识别模型;最后训练模型并利用模型进行行为识别。本发明所提出的行为识别方法优于其他的行为识别算法,能更有效地执行行为识别任务。
-
-
-
-