视频描述方法、系统及装置
摘要:
本发明实施例提供了一种视频描述方法、系统及装置,其中,该方法可以利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示;将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中;根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息;利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见,该实施例采用多模态描述方法,有助于增加视频描述的灵活性。
公开/授权文献
0/0