一种基于多模态特征的视频分类方法
摘要:
本申请涉及视频分类技术领域,特别是涉及一种基于多模态特征的视频分类方法。所述方法包括以下步骤:S100,抽取目标视频vid的视频时序特征Fts;将Fts进行聚合得到Fv;S200,将vid转换为wav格式的音频数据aud;抽取aud的音频时序特征Fas;将Fas进行聚合得到Fa;S300,按照预设频次对vid进行视频帧图像抽取,得到视频帧图像集合img;提取img中的字幕文本信息textocr,并结合vid的文本标题texttitle获取vid的第三特征向量Ft;S400,将Fv、Fa和Ft输入到经训练的第一神经网络模型,得到对vid的一级标签分类结果。本发明实现了对短视频内容的准确分类。
0/0