文本视频检索方法、装置、设备及存储介质
摘要:
本申请涉及计算机领域,特别涉及了人工智能领域,提供了一种文本视频检索方法、装置、设备及存储介质。该方法包括:分别对表征检索信息的第一对象,以及对检索集中的各第二对象进行特征提取,获得相应的第一特征集与各第二特征集;其中,当第一对象或各第二对象为视频时,将各视觉原型的原型特征作为一个第一特征或一个第二特征;通过匹配第一特征集与各第二特征集,获得与第一对象关联的目标检索对象。利用每个视频块对不同视觉原型的关注度,基于各视频块的目标视频特征及各目标视频特征对同一视觉原型的贡献程度,生成能够表征视频中丰富信息的多个原型特征,以达到降低视频与文本之间的映射模糊性,提高检索准确率。
0/0