基于跨模态提示学习的视频问答方法与系统

发明授权

请登陆查看更多内容

专利标题： 基于跨模态提示学习的视频问答方法与系统
申请号： CN202210510047.7

申请日： 2022-05-11
公开(公告)号： CN114996513B

公开(公告)日： 2024-06-28
发明人: 李树涛 , 李宾 , 孙斌 , 郭虎
申请人： 湖南大学
申请人地址： 湖南省长沙市岳麓区麓山南路1号
专利权人： 湖南大学
当前专利权人： 湖南大学
当前专利权人地址： 湖南省长沙市岳麓区麓山南路1号
代理机构： 湖南兆弘专利事务所
代理商 谭武艺
主分类号： G06F16/783
IPC分类号： G06F16/783 ; G06F16/78 ; G06F16/732 ; G06F16/9032 ; G06V20/40 ; G06V10/82 ; G06N3/0464 ; G06N3/048 ; G06N3/08 ; G06F40/205 ; G06V10/80 ; G06F16/35 ; G06F18/25

摘要：

本发明公开了一种基于跨模态提示学习的视频问答方法与系统，本发明方法包括：针对示教视频提取视觉特征和文本特征，利用上下文查询注意力得到对应的跨模态输出特征；根据输出特征，利用视频答案区间高亮模块获取视频答案区间高亮特征并作为预训练的语言模型的视觉提示，通过预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。本发明以高效准确从给定的未剪辑的示教视频中找到问题匹配的视频答案时间段区间，以视频答案时间段区间从语义上回答指定的文本问题为目标，利用视频答案区间高亮模块增强了预训练语言模型中的文本跨度定位，能显著提高视频分类和视频问答的准确率和效率，且适用于各类视频的分类与视频问答任务。

公开/授权文献

CN114996513A 基于跨模态提示学习的视频问答方法与系统公开/授权日：2022-09-02

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/70	.•视频数据
G06F16/78	..••基于相关的元数据或手动分类，如目录数据
G06F16/783	...•••使用自动从内容生成的元数据