发明授权
- 专利标题: 基于跨模态提示学习的视频问答方法与系统
-
申请号: CN202210510047.7申请日: 2022-05-11
-
公开(公告)号: CN114996513B公开(公告)日: 2024-06-28
- 发明人: 李树涛 , 李宾 , 孙斌 , 郭虎
- 申请人: 湖南大学
- 申请人地址: 湖南省长沙市岳麓区麓山南路1号
- 专利权人: 湖南大学
- 当前专利权人: 湖南大学
- 当前专利权人地址: 湖南省长沙市岳麓区麓山南路1号
- 代理机构: 湖南兆弘专利事务所
- 代理商 谭武艺
- 主分类号: G06F16/783
- IPC分类号: G06F16/783 ; G06F16/78 ; G06F16/732 ; G06F16/9032 ; G06V20/40 ; G06V10/82 ; G06N3/0464 ; G06N3/048 ; G06N3/08 ; G06F40/205 ; G06V10/80 ; G06F16/35 ; G06F18/25
摘要:
本发明公开了一种基于跨模态提示学习的视频问答方法与系统,本发明方法包括:针对示教视频提取视觉特征和文本特征,利用上下文查询注意力得到对应的跨模态输出特征;根据输出特征,利用视频答案区间高亮模块获取视频答案区间高亮特征并作为预训练的语言模型的视觉提示,通过预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。本发明以高效准确从给定的未剪辑的示教视频中找到问题匹配的视频答案时间段区间,以视频答案时间段区间从语义上回答指定的文本问题为目标,利用视频答案区间高亮模块增强了预训练语言模型中的文本跨度定位,能显著提高视频分类和视频问答的准确率和效率,且适用于各类视频的分类与视频问答任务。
公开/授权文献
- CN114996513A 基于跨模态提示学习的视频问答方法与系统 公开/授权日:2022-09-02