基于多特征融合的视频描述方法
摘要:
本发明公开了一种基于多特征融合的视频描述方法,其特征在于:1)通过融合传统CNN特征和SIFT流特征提取视频的深层时空特征;2)根据步骤1)提取的深层时空特征,采用加入以平均池化特征作为视频整体特征的S2VT句子生成模型生成相应的句子描述;3)采用word2vec词向量替换one‑hot vector词表征优化步骤2)中的句子生成模型。本方法优点是通过多特征融合,能更好地提取到更加鲁棒的时空特征,同时在句子生成模型中加入平均池化特征,以便视觉信息与单词间建立更多联系,最后采用word2vec词向量方法替换one‑hot vector词表征,在单词与单词之间建立更多的联系,有效提高视频描述性能。
公开/授权文献
0/0