-
公开(公告)号:CN116226449A
公开(公告)日:2023-06-06
申请号:CN202310050175.2
申请日:2023-02-01
申请人: 西安电子科技大学
IPC分类号: G06F16/783 , G06F16/75 , G06N3/08 , G06N3/0464
摘要: 本发明公开了一种基于差分多尺度多粒度特征融合的视频文本检索方法,主要解决现有技术未充分利用视频时序特征及细粒度信息文本标注造成视频文本匹配精度低的问题,其实现方案为:获取视频帧序列及文本标注序列;构建特征提取网络并提取文本标注的全局和局部特征;将视频帧特征按时间序列差分并通过序列特征提取网络与帧特征结合得到视频的局部和全局特征;计算视频和文本标注的全局相似度和局部相似度,计算出损失函数;利用损失函数训练网络;利用训练好的网络计算视频与文本标注的相似度并排序得到检索结果。本发明能减少不同模态之间的语义鸿沟,挖掘视频模态数据中的时序信息,提升跨模态检索精度,可用于视频主题检测和视频应用的内容推荐。
-
公开(公告)号:CN116109960A
公开(公告)日:2023-05-12
申请号:CN202210804157.4
申请日:2022-07-07
申请人: 西安电子科技大学
摘要: 本发明公开了一种基于预训练模型的视频文本检索方法,主要解决现有方法中数据特征异质性及冗余级联造成视频文本匹配精度低的问题;方案包括:1)获取视频数据集的帧序列及文本标注切分产生的文本序列;2)采用图文预训练模型协同提取视频和文本的特征;3)将视频以块级联形式映射,同时将协同提取应用到视频的聚合阶段,以文本表征指导聚合视频帧级特征;4)加入交叉方向上的先验概率并使用分散约束损失,完成模型训练;5)利用训练好的视频文本匹配模型得到最终检索结果。本发明能够有效减少不同模态之间的语义鸿沟,充分挖掘视频模态数据中的复杂时空信息,提升跨模态检索精度。
-