发明公开
- 专利标题: 一种基于多模态特征的视频分类方法
-
申请号: CN202310217049.1申请日: 2023-03-02
-
公开(公告)号: CN116361509A公开(公告)日: 2023-06-30
- 发明人: 郭鸿飞 , 马先钦 , 李雪 , 刘宏宇 , 蔡昌艳 , 王璋盛 , 曹家 , 罗引 , 王磊
- 申请人: 新华融合媒体科技发展(北京)有限公司 , 北京中科闻歌科技股份有限公司
- 申请人地址: 北京市西城区宣武门西大街57号;
- 专利权人: 新华融合媒体科技发展(北京)有限公司,北京中科闻歌科技股份有限公司
- 当前专利权人: 新华融合媒体科技发展(北京)有限公司,北京中科闻歌科技股份有限公司
- 当前专利权人地址: 北京市西城区宣武门西大街57号;
- 代理机构: 北京锺维联合知识产权代理有限公司
- 代理商 安娜
- 主分类号: G06F16/75
- IPC分类号: G06F16/75 ; G06F16/735 ; G06F16/783
摘要:
本申请涉及视频分类技术领域,特别是涉及一种基于多模态特征的视频分类方法。所述方法包括以下步骤:S100,抽取目标视频vid的视频时序特征Fts;将Fts进行聚合得到Fv;S200,将vid转换为wav格式的音频数据aud;抽取aud的音频时序特征Fas;将Fas进行聚合得到Fa;S300,按照预设频次对vid进行视频帧图像抽取,得到视频帧图像集合img;提取img中的字幕文本信息textocr,并结合vid的文本标题texttitle获取vid的第三特征向量Ft;S400,将Fv、Fa和Ft输入到经训练的第一神经网络模型,得到对vid的一级标签分类结果。本发明实现了对短视频内容的准确分类。