基于骨架和视频特征融合的行为分类方法

    公开(公告)号:CN112560618A

    公开(公告)日:2021-03-26

    申请号:CN202011419698.2

    申请日:2020-12-06

    申请人: 复旦大学

    摘要: 本发明属于计算机图像处理技术领域,具体为一种基于骨架和视频特征融合的行为分类方法。本发明方法包括:对已有的人类行为视频数据进行预处理,通过人体检测模型和OpenPose分别获取对应的人体检测框和人体骨架数据,作为深度学习模型的训练数据;其中视频数据和人体检测框数据作为前景与背景特征融合网络的输入,骨架特征作为个体与群体特征融合网络的输入;两个网络的输出结果进行平均为最终分类结果;接着对训练集进行监督式学习,得到泛化的深度学习模型;然后,对识别的视频进行和模型训练时一样的预处理,然后作为输入,放进预先训练好深度学习模型里,就能得到行为分类的结果。

    基于多头跨模态注意力机制的弱监督视频时序动作定位方法

    公开(公告)号:CN115761904A

    公开(公告)日:2023-03-07

    申请号:CN202211666324.X

    申请日:2022-12-23

    申请人: 复旦大学

    摘要: 本发明属于计算机视频分析技术领域,具体为基于多头跨模态注意力机制的弱监督视频时序动作定位方法。本发明方法包括:对输入的未裁剪视频提取RGB特征和FLOW特征,作为多头跨模态注意力机制模型的训练数据;引入并训练深度学习模型,该模型是多头跨模态注意力机制模型,包括利用多个映射头将原始特征转换为多个不同的隐藏空间,以保证特征多样性;引入协相关矩阵,来挖掘RGB与FLOW特征每个头模态之间的关系,通过归一化交叉注意权值对特征进行重新校正;对重新校准的特征进行融合,得到最后的时序动作定位结果。实验表明,本发明具有通用性,可以作为即插即用模块嵌入到弱监督视频时序动作定位方法中,极大提高模型的检测精度。

    基于骨架和视频特征融合的行为分类方法

    公开(公告)号:CN112560618B

    公开(公告)日:2022-09-16

    申请号:CN202011419698.2

    申请日:2020-12-06

    申请人: 复旦大学

    摘要: 本发明属于计算机图像处理技术领域,具体为一种基于骨架和视频特征融合的行为分类方法。本发明方法包括:对已有的人类行为视频数据进行预处理,通过人体检测模型和OpenPose分别获取对应的人体检测框和人体骨架数据,作为深度学习模型的训练数据;其中视频数据和人体检测框数据作为前景与背景特征融合网络的输入,骨架特征作为个体与群体特征融合网络的输入;两个网络的输出结果进行平均为最终分类结果;接着对训练集进行监督式学习,得到泛化的深度学习模型;然后,对识别的视频进行和模型训练时一样的预处理,然后作为输入,放进预先训练好深度学习模型里,就能得到行为分类的结果。