基于提示嵌入的视频与文本跨模态哈希检索方法

    公开(公告)号:CN117493591A

    公开(公告)日:2024-02-02

    申请号:CN202311421259.9

    申请日:2023-10-30

    Abstract: 本发明提供的一种基于提示嵌入的视频与文本跨模态哈希检索方法,涉及计算机技术领域,包括:获取待查询模态数据,将待查询模态数据通过相应符合条件的哈希学习模型转换成待查询哈希码;其中,符合条件的哈希学习模型包括:符合条件的VIT模型和符合条件的RoBERTa模型,符合条件的VIT模型用于视频模态数据的哈希码转换,符合条件的RoBERTa模型用于文本模态数据的哈希码转换;通过遍历的方式计算待查询哈希码与视频‑文本哈希码数据库中待匹配模态哈希码的汉明距离,通过汉明距离得到跨模态检索的输出。通过设计一个有效的跨模态映射,将不同模态的数据映射到一个共同的哈希空间,从而解决模态鸿沟问题,提高了视频与文本跨模态哈希检索的准确率。

Patent Agency Ranking