基于跨模态提示学习的视频问答方法与系统
摘要:
本发明公开了一种基于跨模态提示学习的视频问答方法与系统,本发明方法包括:针对示教视频提取视觉特征和文本特征,利用上下文查询注意力得到对应的跨模态输出特征;根据输出特征,利用视频答案区间高亮模块获取视频答案区间高亮特征并作为预训练的语言模型的视觉提示,通过预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。本发明以高效准确从给定的未剪辑的示教视频中找到问题匹配的视频答案时间段区间,以视频答案时间段区间从语义上回答指定的文本问题为目标,利用视频答案区间高亮模块增强了预训练语言模型中的文本跨度定位,能显著提高视频分类和视频问答的准确率和效率,且适用于各类视频的分类与视频问答任务。
公开/授权文献
0/0