基于人体骨架和动作边界回归优化的动作分割方法

    公开(公告)号:CN119832631A

    公开(公告)日:2025-04-15

    申请号:CN202411836891.4

    申请日:2024-12-13

    Applicant: 常州大学

    Abstract: 本发明涉及动作分割技术领域,尤其涉及基于人体骨架和动作边界回归优化的动作分割方法,包括对视频进行动作分割,构建动作视频数据集;利用动作视频提取每帧人体骨架特征;构建LFE模块、动作分割分支网络和边界回归分支网络的动作分割网络,将人体骨架特征输入LFE模块输出共享动作特征;将共享动作特征分别输入动作分割分支网络和边界回归分支网络;使用边界回归分支网络预测的动作边界优化动作分割分支网络的动作类别,输出动作分割结果。本发明解决现有动作分割方法依赖于视频内容的场景和对象信息,无法处理动作变化快的细粒度语义信息,从而导致动作分割准确率低的问题。

    基于3D的Longformer多尺度动作识别方法

    公开(公告)号:CN117912117A

    公开(公告)日:2024-04-19

    申请号:CN202410110003.4

    申请日:2024-01-26

    Applicant: 常州大学

    Abstract: 本发明涉及动作识别技术领域,尤其涉及基于3D的Longformer多尺度动作识别方法,包括制作装配动作数据集;输入视频经过PatchEmbed模块在空间维度上被分割为若干个patch;经过Flatten层、LayerNorm层后加上位置编码和global token,通过3D Longformer AttenBlock模块做注意力计算;最后由MlpBlock模块增强提取的时空特征;使用训练集对动作识别网络进行训练,并利用测试集进行评估。本发明解决基于卷积的动作识别方法缺少全局建模能力;以及基于Transformer的动作识别方法局部冗余过高进而导致计算的复杂度呈二次方增长的问题。

    基于改进YOLOv7人员眼嘴部状态检测方法及系统

    公开(公告)号:CN117746403A

    公开(公告)日:2024-03-22

    申请号:CN202311803746.1

    申请日:2023-12-26

    Applicant: 常州大学

    Abstract: 本发明涉及图像处理技术领域,尤其涉及基于改进YOLOv7人员眼嘴部状态检测方法及系统,包括采集驾驶员眼部和嘴部图像数据;利用ELAN‑LSK模块替代ELAN模块,ELAN‑LSK模块是在ELAN模块尾部加入LSK选择性注意力;利用ELAN‑LSK模块对驾驶员眼部和嘴部特征进行特征提取学习,通过大内核和空间选择机制来筛选特征信息,从而生成具有不同深度信息的初始特征;改进Neck颈部,通过改进SPPCSPC模块,在感受视野不变的情况下,减少参数量;利用输出的融合特征进行特征学习,完成对驾驶员眼部和嘴部状态的检测。本发明解决现有方法检测准确率低和模型参数量大的问题。

    基于两阶段时空注意力的动作检测方法及系统

    公开(公告)号:CN117392578A

    公开(公告)日:2024-01-12

    申请号:CN202311282840.7

    申请日:2023-10-07

    Applicant: 常州大学

    Abstract: 本发明涉及计算机视觉技术领域,尤其涉及基于两阶段时空注意力的动作检测方法及系统,包括利用ResNet50提取视频帧图像特征;并利用改进FPN特征金字塔结构增强提取的视频特征,使用带有位置编码和线性展平层的Transformer编‑解码器来检测人体区域;利用时空注意力编码器对检测到的人体区域内的动作进行识别。本发明解决传统时空动作检测方法存在对长时间视频的检测精度较低以及训练时间过长;基于纯Transformer结构的动作检测方法由于token数量的增加而导致计算和内存复杂性呈二次增长且对小目标的检测精度较差的问题。

    基于全尺度跳跃连接的肝脏CT图像分割方法及系统

    公开(公告)号:CN117392082A

    公开(公告)日:2024-01-12

    申请号:CN202311326888.3

    申请日:2023-10-13

    Applicant: 常州大学

    Abstract: 本发明涉及图像处理技术领域,尤其涉及基于全尺度跳跃连接的肝脏CT图像分割方法及系统,包括采集肝脏CT图像,并进行切片和预处理;以UNet3+网络为主干,在编码器和解码器之间引入注意力模块;并将最后一层解码器引出一条分支输入分类指导模块,判断特征图是否属于器官特征;再与解码器每一个节点输出相乘后送入深度监督模块;将编码器层输出结果分别与对应大小的标签图像进行比较,计算出不同层各自的损失值。本发明解决网络在不同尺度之间的特征进行融合时不丢失重要区域特征的问题。

Patent Agency Ranking