-
公开(公告)号:CN117194710A
公开(公告)日:2023-12-08
申请号:CN202311228436.1
申请日:2023-09-21
申请人: 电子科技大学 , 电子科技大学广东电子信息工程研究院
IPC分类号: G06F16/735 , G06F16/783 , G06F16/9535 , G06N3/0455 , G06N3/0895
摘要: 本申请实施例提出一种多粒度视频检索方法及装置,属于跨模态内容检索领域,通过该检索算法,基于待查询文本的句子级文本特征、视频库中每个视频数据的粗粒度视频特征和细粒度视频特征,进行多中心和多尺度的双分支协同特征处理,得到待查询文本与每个视频数据间的相似度数据,以此得到视频级检索对应的整体级视频和片段级检索对应的片段级视频的检索结果。检索算法采用双分支协同策略,设计粗粒度浏览分支和细粒度凝视分支,采用基于焦点引导的协同检索策略浏览分支和凝视分支,并引入混合协同对比学习策略,显著提高了弱监督条件下对完整视频的检索召回率以及对视频中的目标片段的定位精度。
-
公开(公告)号:CN115131700A
公开(公告)日:2022-09-30
申请号:CN202210729782.7
申请日:2022-06-24
申请人: 电子科技大学
IPC分类号: G06V20/40 , G06V40/20 , G06V10/774 , G06V10/776 , G06V10/80 , G06V10/82 , G06V10/764 , G06N3/04 , G06N3/08 , G10L25/27 , G10L25/48
摘要: 本发明公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法,所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络,该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注;然后利用得到的不完全准确的音频标注和视频标注,协同训练模态引导网络和层次化上下文建模网络;通过上述训练方法,可以得到具有较强模态分辨能力的上下文层次化建模网络,较好地对音视频进行内容解析;模态引导网络强化了模态区分能力;本发明采用的双路层次化混合模型来解决弱监督音视频内容解析任务,进一步提高了模型对不同模态的适应和理解能力。
-