基于跨模态哈希学习的视频解析方法

发明授权

请登陆查看更多内容

专利标题： 基于跨模态哈希学习的视频解析方法
申请号： CN202110447506.7

申请日： 2021-04-25
公开(公告)号： CN113111836B

公开(公告)日： 2022-08-19
发明人: 贾永坡 , 申培 , 胡宇鹏 , 甘甜 , 吴建龙 , 高赞 , 聂礼强
申请人： 山东省人工智能研究院 , 山东大学 , 河钢数字技术股份有限公司 , 河钢集团有限公司
申请人地址： 山东省济南市历下区科院路19号; ; ;
专利权人： 山东省人工智能研究院,山东大学,河钢数字技术股份有限公司,河钢集团有限公司
当前专利权人： 山东省人工智能研究院,山东大学,河钢数字技术股份有限公司,河钢集团有限公司
当前专利权人地址： 山东省济南市历下区科院路19号; ; ;
代理机构： 济南泉城专利商标事务所
代理商 支文彬
主分类号： G06V20/40
IPC分类号： G06V20/40 ; G06V10/74 ; G06V10/77 ; G06V10/80 ; G06V10/82 ; G06N3/04 ; G06N3/08

摘要：

一种基于跨模态哈希学习的视频解析方法，实现多模态特征向汉明共空间的特征映射与融合，并利用汉明距离对具有语义相似性的视频片段‑查询语句对，进行高效检索。一方面引入双向时序卷积网络模型，深刻理解视频单元的上下文信息，以及视频内部的长期语义依赖；另一方面，引入基于多头注意力机制的文本语义理解模型，对给定查询语句进行有效表征，从而提高了视频定位的精度。本发明的特征编码模型是相互独立的，即视频片段候选集的生成与查询语句特征集的表征，可以分开独立运行。因此，当我们对给定视频完成相应的候选集生成之后，可以根据不同用户的多样性需求，对当前视频反复进行基于汉明距离度量的高效视频定位。

公开/授权文献

CN113111836A 基于跨模态哈希学习的视频解析方法公开/授权日：2021-07-13

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）