基于跨模态哈希学习的视频解析方法

发明公开

请登陆查看更多内容

专利标题： 基于跨模态哈希学习的视频解析方法
申请号： CN202110447506.7

申请日： 2021-04-25
公开(公告)号： CN113111836A

公开(公告)日： 2021-07-13
发明人: 贾永坡 , 申培 , 胡宇鹏 , 甘甜 , 吴建龙 , 高赞 , 聂礼强
申请人： 山东省人工智能研究院 , 山东大学 , 河钢数字技术股份有限公司 , 河钢集团有限公司
申请人地址： 山东省济南市历下区科院路19号; ; ;
专利权人： 山东省人工智能研究院,山东大学,河钢数字技术股份有限公司,河钢集团有限公司
当前专利权人： 山东省人工智能研究院,山东大学,河钢数字技术股份有限公司,河钢集团有限公司
当前专利权人地址： 山东省济南市历下区科院路19号; ; ;
代理机构： 济南泉城专利商标事务所
代理商 支文彬
主分类号： G06K9/00
IPC分类号： G06K9/00 ; G06K9/62 ; G06N3/04 ; G06N3/08

摘要：

一种基于跨模态哈希学习的视频解析方法，实现多模态特征向汉明共空间的特征映射与融合，并利用汉明距离对具有语义相似性的视频片段‑查询语句对，进行高效检索。一方面引入双向时序卷积网络模型，深刻理解视频单元的上下文信息，以及视频内部的长期语义依赖；另一方面，引入基于多头注意力机制的文本语义理解模型，对给定查询语句进行有效表征，从而提高了视频定位的精度。本发的特征编码模型是相互独立的，即视频片段候选集的生成与查询语句特征集的表征，可以分开独立运行。因此，当我们对给定视频完成相应的候选集生成之后，可以根据不同用户的多样性需求，对当前视频反复进行基于汉明距离度量的高效视频定位。

公开/授权文献

CN113111836B 基于跨模态哈希学习的视频解析方法公开/授权日：2022-08-19

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06K	图形数据读取（图像或视频识别或理解G06V）；数据的呈现；记录载体；处理记录载体
G06K9/00	识别模式的方法或装置（图形读取或将机械参数模式（例如力或存在）转换为电信号的方法或装置 G06K11/00）（图像或视频识别或理解 G06V）（语音识别 G10L15/00 )