一种基于多模态识别视频情感信息的方法
摘要:
本发明公开了一种基于多模态识别视频情感信息的方法,包括:根据所得每个视频的语音信号和关键帧分别提取特征;对所得的语音特征和关键帧特征进行融合得到每个视频特征描述符;根据视频特征描述符建立关系图;根据关系图,通过多头注意力构造多个全连接图,生成多分支图卷积网络;对构造的每个全连接图,即为多分支图卷积网络中的每个分支,分别作图卷积更新节点特征;将多个全连接图的更新后的节点特征进行融合,生成唯一的节点特征即最终所得的包含视频间关联性的视频特征描述符;对最终的视频特征描述符进行分类得到每个视频所属的情感类别。本发明利用视频描述符之间的相关性提升音频视频情感识别任务的分类精度。
0/0