一种基于动态融合门机制的多模态视频分类方法

    公开(公告)号:CN117058594A

    公开(公告)日:2023-11-14

    申请号:CN202311132856.X

    申请日:2023-09-04

    摘要: 本发明涉及一种基于动态融合门机制的多模态视频分类方法,属于视频分类技术领域。为了克服现有技术中存在的缺陷,本发明旨在提供一种基于动态融合门机制的多模态视频分类方法,包括通过单模态特征提取模块抽取目标视频的多级视觉特征、多级文本特征;基于视频帧的多级视觉特征、视频字幕的多级文本特征,采用动态融合门模块获取以视觉为主体的多模态融合特征和以文本为主体的多模态融合特征;基于以视觉为主体的多模态融合特征和以文本为主体的多模态融合特征,采用视频分类模块进行视频分类。本发明通过动态融合门机制让模型自己去学习更适合自身的单模态特征使用数量和多模态融合位置,从而加速视频分类模型的训练效率、提升模型分类效果。