-
公开(公告)号:CN114419487B
公开(公告)日:2024-07-02
申请号:CN202111607289.X
申请日:2021-12-24
申请人: 北京理工大学
IPC分类号: G06V20/40 , G06N3/0442 , G06N3/084 , G06V40/20 , G06V10/774 , G06V10/84 , G06V10/764
摘要: 本发明公开了一种内容时间关系网络及生成时间动作提案的方法,能够解决在视频中难以生成高质量时序动作提案的问题。所述内容时间关系网络包括:特征编码模块、基础网络、提案评估网络、帧评估网络;所述特征编码模块得到视频特征序列;所述基础网络用于提取帧级别特征之间的双向语义关系,输出最终特征序列;所述提案评估网络包括提案特征图生成层和内容‑时间关系模块,所述提案特征图生成层将所述最终特征序列转化为二维时域提案特征图;所述内容‑时间关系模块基于所述二维时域提案特征图,获取提案之间的内容和时间语义关系,预测每个提案的置信度和完整性;所述帧评估网络输出每帧为动作帧、开始帧、以及结束帧的概率。
-
公开(公告)号:CN112613356B
公开(公告)日:2023-01-10
申请号:CN202011417147.2
申请日:2020-12-07
申请人: 北京理工大学
摘要: 本发明提供一种基于深度注意力融合网络的动作检测方法及装置,所述方法包括获取待检测视频;提取一个帧序列的初始特征;将所述初始特征输入残差通道‑空间注意力模块;所述初始特征经所述残差通道‑空间注意力模块处理,输出注意力机制调制后的特征;对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。根据本发明的方案,从通道和空间两个维度增强提取的初始特征,输出的特征不仅具有高级语义信息,也保留了低层次的空间信息。
-
-
公开(公告)号:CN114419487A
公开(公告)日:2022-04-29
申请号:CN202111607289.X
申请日:2021-12-24
申请人: 北京理工大学
IPC分类号: G06V20/40 , G06K9/62 , G06N3/04 , G06N3/08 , G06V40/20 , G06V10/774 , G06V10/84 , G06V10/764
摘要: 本发明公开了一种内容时间关系网络及生成时间动作提案的方法,能够解决在视频中难以生成高质量时序动作提案的问题。所述内容时间关系网络包括:特征编码模块、基础网络、提案评估网络、帧评估网络;所述特征编码模块得到视频特征序列;所述基础网络用于提取帧级别特征之间的双向语义关系,输出最终特征序列;所述提案评估网络包括提案特征图生成层和内容‑时间关系模块,所述提案特征图生成层将所述最终特征序列转化为二维时域提案特征图;所述内容‑时间关系模块基于所述二维时域提案特征图,获取提案之间的内容和时间语义关系,预测每个提案的置信度和完整性;所述帧评估网络输出每帧为动作帧、开始帧、以及结束帧的概率。
-
公开(公告)号:CN116168320A
公开(公告)日:2023-05-26
申请号:CN202310020257.2
申请日:2023-01-05
申请人: 北京理工大学
IPC分类号: G06V20/40 , G06V10/80 , G06V10/82 , G06N3/084 , G06N3/0464
摘要: 本发明涉及人工智能理解和环境交互,具体涉及一种用于在线视频视觉关系检测的自适应时间聚合网络及方法。本发明采用的动态缓冲存储器来保存历史视频片段可以固定存储内容的大小,不会因为时间而使得存储内容越来越大。本发明采用的步进采样策略通过对视频帧与当前关键帧的关联性的强弱来设置采样频率,可以在保持对视频中的对象在时间维度上关系的检测结果的准确性的同时减少网络所需要的运算消耗。本发明所提出的自适应时空激活模块和基于注意力的知识状态融合模块使该发明能够自适应的提取和融合历史信息和当前状态,能够检测对象的动态关系和静态关系。
-
公开(公告)号:CN115984729A
公开(公告)日:2023-04-18
申请号:CN202211385867.4
申请日:2022-11-07
申请人: 北京理工大学
IPC分类号: G06V20/40 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/08 , G06N3/0464
摘要: 本发明涉及人工智能理解和环境交互技术领域,具体涉及一种基于多模态信息融合的在线视频视觉关系检测方法。本发明提出了ASE‑GCN层,利用三个不同的相关邻接矩阵对潜在关系图进行建模。矩阵包含视觉外观、物理空间和语义嵌入信息。将基于双线性池化的融合方法扩展为基于三线性池化的融合,并设计了一个分层融合模块来融合多角色多模态特征。
-
公开(公告)号:CN114078226A
公开(公告)日:2022-02-22
申请号:CN202111411477.5
申请日:2021-11-25
申请人: 北京理工大学
IPC分类号: G06V20/40 , G06V40/20 , G06V10/764 , G06K9/62
摘要: 本发明提出了一种基于动作管道在线关联的智联生产线行为识别方法,采用多标准相似性匹配的动作管道在线关联算法,能够得到更精准的视频级动作检测结果。本发明采用视觉传感器获取生产线视频数据,经帧级动作检测模型实时检测输出检测框,采用包含类别一致性、类别置信度、空间重叠程度、外观相似性以及时空相似性的多标准相似性匹配的原则对检测框进行在线关联,实时输出视频级行为识别结果,即动作管道,提升了行为识别的准确性,尤其是对于空间位置变化大、速度快的行为类别,其识别效果取得了明显提升,更加适应智联生产线上的复杂应用场景。
-
公开(公告)号:CN114463404B
公开(公告)日:2024-07-02
申请号:CN202210003877.0
申请日:2022-01-05
申请人: 北京理工大学
IPC分类号: G06T7/55 , G06T7/73 , G06N3/0464 , G06N3/045
摘要: 本发明的自适应深度感知视觉关系的检测方法,由深度感知视觉融合模块由深度细化单元和深度感知注意力单元组成,能够将不准确的深度视觉信息与准确的RGB视觉信息融合。通过分区域局部池化操作,在背景噪声和前景噪声的影响下,目标的深度空间定位存在较大的误差时,采用自适应深度空间定位方法,利用区域信息方差度量边界框中每个小区域的信息相关性,充分利用视觉外观和空间位置这两个视觉关系检测的主要因素中的深度信息,提高网神经络在视觉关系检测任务中的性能。
-
公开(公告)号:CN114078226B
公开(公告)日:2024-07-02
申请号:CN202111411477.5
申请日:2021-11-25
申请人: 北京理工大学
IPC分类号: G06V20/40 , G06V40/20 , G06V10/764 , G06V10/74
摘要: 本发明提出了一种基于动作管道在线关联的智联生产线行为识别方法,采用多标准相似性匹配的动作管道在线关联算法,能够得到更精准的视频级动作检测结果。本发明采用视觉传感器获取生产线视频数据,经帧级动作检测模型实时检测输出检测框,采用包含类别一致性、类别置信度、空间重叠程度、外观相似性以及时空相似性的多标准相似性匹配的原则对检测框进行在线关联,实时输出视频级行为识别结果,即动作管道,提升了行为识别的准确性,尤其是对于空间位置变化大、速度快的行为类别,其识别效果取得了明显提升,更加适应智联生产线上的复杂应用场景。
-
公开(公告)号:CN114463404A
公开(公告)日:2022-05-10
申请号:CN202210003877.0
申请日:2022-01-05
申请人: 北京理工大学
摘要: 本发明的自适应深度感知视觉关系的检测方法,由深度感知视觉融合模块由深度细化单元和深度感知注意力单元组成,能够将不准确的深度视觉信息与准确的RGB视觉信息融合。通过分区域局部池化操作,在背景噪声和前景噪声的影响下,目标的深度空间定位存在较大的误差时,采用自适应深度空间定位方法,利用区域信息方差度量边界框中每个小区域的信息相关性,充分利用视觉外观和空间位置这两个视觉关系检测的主要因素中的深度信息,提高网神经络在视觉关系检测任务中的性能。
-
-
-
-
-
-
-
-
-