基于Transformer的行为识别算法
    2.
    发明公开

    公开(公告)号:CN113591774A

    公开(公告)日:2021-11-02

    申请号:CN202110916002.5

    申请日:2021-08-10

    IPC分类号: G06K9/00 G06N3/04

    摘要: 本发明公开了基于Transformer的行为识别算法。它完全基于一种避免重复和卷积的注意机制,它利用了计算机视觉和自然语言处理的最新进展,并将它们应用于视频理解,可以识别微妙的动作。我们首先从视频中提取人体姿态信息,然后进行位置编码,把提取的信息放到Transformer的编码模块,编码模块中的输出变成解码模块的输入,然后通过前馈网络模块进行行为识别。每个解码器都有一个自注意层和一个完全连接的网络层。每个解码器都有一个自注意层、一个正常注意层和一个完全连接层。普通注意层使解码器在解码时考虑到最后一层编码器的所有时刻的输出,所以最后一层编码器的输出需要馈给所有解码器来完成这个普通注意。同时,自我注意不包含位置关系,需要进行位置编码。从姿态估计部分提取原始视频的时空信息,输入神经网络进行提取,然后对骨架数据的时空信息进行处理,最后输出,从而实现更好的动作识别。

    基于跨模态学习的文本和行人视频检索方法

    公开(公告)号:CN117112813A

    公开(公告)日:2023-11-24

    申请号:CN202310910990.1

    申请日:2023-07-24

    摘要: 本发明提供了一种基于跨模态学习的文本和行人视频检索方法,对多个待识别的视频分别进行灰度化处理和掩码处理,对文本进行灰度化的过滤处理;通过视觉特征提取网络对各视频进行处理获取三组视频全局特征,通过文本编码器对文本进行处理获取两组文本全局特征;采用完成训练的视频检索模型捕获细粒度信息;基于全局特征和细粒度特征获取各视频与文本的相似度;对各视频与文本的相似度进行排序,获取相似度最高的视频作为检索结果。本发明针对目前视频检索方法中对于视频中行人特征的细节不够以及颜色依赖问题导致的干扰进行了改善,选择灰度与彩色视频帧相结合以及全局与局部相结合的方式,细化了行人特征和文本特征,提高模型的检索精度。

    基于高频信息指导下的天气多变性文本行人重识别算法

    公开(公告)号:CN117095326A

    公开(公告)日:2023-11-21

    申请号:CN202310854344.8

    申请日:2023-07-12

    摘要: 本发明提供了一种基于高频信息指导下的天气多变性文本行人重识别算法,所述方法包括以下步骤:首先通过天气动态变化模块,对图像进行处理,生成具有随机天气效果图像。同时通过高频信息提取模块,获取具有高频信息图像;然后将经过上述两个模块处理后的图像以及原始图像,与未经处理的文本描述一起,输入到预训练网络和多粒度多模态的特征提取网络进行处理,以获得两种模态全局和局部特征;最后计算相似度进行匹配,输出识别结果。本发明行人重识别算法模型针对天气多变性提出了一种新的方法,使算法更符合现实场景,并增加了训练数据多样性,提高了模型泛化能力。此外通过充分利用高频信息,进一步挖掘视觉部分所蕴含更深层次信息。

    一种基于时序注意力机制的行人视频描述算法

    公开(公告)号:CN116959034A

    公开(公告)日:2023-10-27

    申请号:CN202311013538.1

    申请日:2023-08-11

    摘要: 本文提出了一种提取视频时序特征并采用时序注意力机制的行人视频描述算法。本算法采用三维深度残差网络提取视频的时序特征,其中残差块的跳跃连接方法解决了神经网络梯度爆炸的问题,使该模型能够在较低的计算量下提取到更加细粒度的特征。本算法采用时序注意力机制进行描述的注意力分配和生成,循环注意力模块能够更好的完成注意力分配任务,更重要的是,在其中加入LSTM(Long Short‑Term Memory)门控机制就可以实现在提取注意力的同时不忽略时序信息,LSTM门的使用也很大程度的减少了计算量,使得循环过程更加高效。另外,采用滑动窗口注意力机制进行自注意力编码操作以及交叉注意力解码操作,可以防止词符过多,减少计算量。最后通过对比词符嵌入值的概率分布,即可生成描述。

    基于图像色域分布自适应调整的文本行人重识别算法

    公开(公告)号:CN115082967A

    公开(公告)日:2022-09-20

    申请号:CN202210901938.5

    申请日:2022-07-28

    摘要: 本发明提供了一种基于图像色域分布自适应调整的文本行人重识别算法,所述方法包括以下步骤:首先将图像通过图像色域分布自适应调整模块,得到图像色域更加丰富的图像;将经过图像色域分布自适应调整模块处理过后的图片与未处理的文本描述通过图‑文预训练网络,得到行人的文本特征向量与视觉特征图;将得到的行人文本特征向量与视觉特征图送入多粒度多模态的特征提取网络进行处理,得到两种模态全局与局部对应特征,然后通过信息共享模块实现信息互通,计算相似度,进行匹配,输出识别结果。本发明针对目前部分行人重识别算法模型计算效率低的情况,选择使用图‑文预训练方法来进行预训练,提升模型计算效率;提出一种基于图像色域分布自适应调整的文本行人重识别算法,可增加训练数据的多样性,提高模型对于不同数据的适应性。

    面向行人图像的人体骨架热图引导的图像描述算法

    公开(公告)号:CN116935442A

    公开(公告)日:2023-10-24

    申请号:CN202310904240.3

    申请日:2023-07-21

    摘要: 本发明提供了一种面向行人图像的人体骨架热图引导的图像描述算法,所述方法包括以下步骤:使用人体骨架点热图提取方法得到行人的骨架点热图特征矩阵;采用图像特征提取方法将原图像送入特征提取网络生成原图全局特征矩阵;将骨架点热图特征矩阵和原图全局特征矩阵加权线性叠加生成特征融合矩阵;利用得到的视觉特征融合矩阵与行人图片参考文本的特征向量进行图像细粒度调节,进行模型训练,得到训练模型;将行人图像送入训练好的基于人体骨架热图识别模块的图像描述链式模型,得到行人图像描述结果。本发明针对目前基于行人图像描述方法可能会面临特征覆盖不全、描述不准确的问题,选择人体骨架热图识别的方式弥补了这些缺陷,从而提高了网络的特征发掘能力和融合能力,提高行人图像描述的精确度与细粒度。

    基于跨模态相关性图推断方法的文本行人重识别算法

    公开(公告)号:CN115116096A

    公开(公告)日:2022-09-27

    申请号:CN202210828756.X

    申请日:2022-07-14

    摘要: 本发明本发明提供了一种跨模态相关性图推断方法的文本行人重识别算法,所述方法包括以下步骤:通过跨模态相关性图推断方法,得到行人的文本特征向量与视觉特征图;将得到的行人文本特征向量与视觉特征图送入基于监督机制的特征提取网络进行处理,得到两种模态全局与局部对应特征;利用多模态的全局与局部特征构建相关性图,进行图推断得到相似度,进行匹配,输出识别结果。本发明针对目前基于图像的行人重识别可能会面临缺少目标行人查询图像的问题,选择文本描述作为查询条件提高了可访问性;提出一种基于跨模态相关性图推断方法的文本行人重识别算法,充分挖掘了图文数据之间的跨模态高阶相关性信息,可提高检索精度与稳定性。

    一种基于UDP协议实时传输视频的重力加速度测量方法

    公开(公告)号:CN115236761A

    公开(公告)日:2022-10-25

    申请号:CN202210767792.X

    申请日:2022-07-01

    发明人: 石宇辉 胡方强

    摘要: 本发明提供一种基于UDP协议实时传输视频的重力加速度测量方法,该方法通过布置摆球和摄像节点A、B,采集摆球的运动视频;摄像节点A、B分别提取图像帧数据进行处理,获取各帧图像中摆球的空间位置数据并计算对应节点所获取的重力加速度发送至终端节点,终端节点解析数据采用均值滤波算法对两个节点获取到的重力加速度进行处理,获得实际重力加速度。本发明通过两处数据采集,分别进行图像处理和运算获得各节点的重力加速度,再进行拟合,有效提高了单摆重力加速度测量的准确性。