基于多媒体语义解析的监控视频智能预警方法
摘要:
一种基于多媒体语义解析的监控视频智能预警方法,通过建立跨模态语义对齐模型对视频中所包含的复杂对象与交互进行准确理解,并生成视频片段时空位置图和视频语义树,另一方面,引入基于双向长短时记忆网络的文本编码模块,对查询语句中的文本语义进行深刻理解与表征。实现多模态特征向共空间的特征映射与融合,并利用语义剪枝策略,粗粒度筛选出精炼的“视频片段‑查询语句”对,进行细粒度语义匹配计算,从而确保跨模态视频定位的精度与效率。
公开/授权文献
0/0