-
公开(公告)号:CN113111836B
公开(公告)日:2022-08-19
申请号:CN202110447506.7
申请日:2021-04-25
申请人: 山东省人工智能研究院 , 山东大学 , 河钢数字技术股份有限公司 , 河钢集团有限公司
摘要: 一种基于跨模态哈希学习的视频解析方法,实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段‑查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发明的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。
-
公开(公告)号:CN113111836A
公开(公告)日:2021-07-13
申请号:CN202110447506.7
申请日:2021-04-25
申请人: 山东省人工智能研究院 , 山东大学 , 河钢数字技术股份有限公司 , 河钢集团有限公司
摘要: 一种基于跨模态哈希学习的视频解析方法,实现多模态特征向汉明共空间的特征映射与融合,并利用汉明距离对具有语义相似性的视频片段‑查询语句对,进行高效检索。一方面引入双向时序卷积网络模型,深刻理解视频单元的上下文信息,以及视频内部的长期语义依赖;另一方面,引入基于多头注意力机制的文本语义理解模型,对给定查询语句进行有效表征,从而提高了视频定位的精度。本发的特征编码模型是相互独立的,即视频片段候选集的生成与查询语句特征集的表征,可以分开独立运行。因此,当我们对给定视频完成相应的候选集生成之后,可以根据不同用户的多样性需求,对当前视频反复进行基于汉明距离度量的高效视频定位。
-
公开(公告)号:CN113111837B
公开(公告)日:2022-05-13
申请号:CN202110447507.1
申请日:2021-04-25
申请人: 山东省人工智能研究院 , 山东大学 , 河钢数字技术股份有限公司 , 河钢集团有限公司
摘要: 一种基于多媒体语义解析的监控视频智能预警方法,通过建立跨模态语义对齐模型对视频中所包含的复杂对象与交互进行准确理解,并生成视频片段时空位置图和视频语义树,另一方面,引入基于双向长短时记忆网络的文本编码模块,对查询语句中的文本语义进行深刻理解与表征。实现多模态特征向共空间的特征映射与融合,并利用语义剪枝策略,粗粒度筛选出精炼的“视频片段‑查询语句”对,进行细粒度语义匹配计算,从而确保跨模态视频定位的精度与效率。
-
公开(公告)号:CN113111959A
公开(公告)日:2021-07-13
申请号:CN202110446459.4
申请日:2021-04-25
申请人: 山东省人工智能研究院 , 山东大学 , 河钢数字技术股份有限公司 , 河钢集团有限公司
摘要: 一种基于时序表征学习的安全隐患分类方法,通过基于时序表征的分类模型对时序变化趋势、时序上下文信息进行综合理解,能够对时序特征进行增强表征,从而提高分类精度,能够基于注意力机制,对时间序列的重要时序特征进行有效的标识,实现分类可解释性。并利用注意力机制对分类结果进行具有可解释性的数据可视化。
-
公开(公告)号:CN113111837A
公开(公告)日:2021-07-13
申请号:CN202110447507.1
申请日:2021-04-25
申请人: 山东省人工智能研究院 , 山东大学 , 河钢数字技术股份有限公司 , 河钢集团有限公司
摘要: 一种基于多媒体语义解析的监控视频智能预警方法,通过建立跨模态语义对齐模型对视频中所包含的复杂对象与交互进行准确理解,并生成视频片段时空位置图和视频语义树,另一方面,引入基于双向长短时记忆网络的文本编码模块,对查询语句中的文本语义进行深刻理解与表征。实现多模态特征向共空间的特征映射与融合,并利用语义剪枝策略,粗粒度筛选出精炼的“视频片段‑查询语句”对,进行细粒度语义匹配计算,从而确保跨模态视频定位的精度与效率。
-
公开(公告)号:CN113065012B
公开(公告)日:2022-04-22
申请号:CN202110288644.5
申请日:2021-03-17
申请人: 山东省人工智能研究院 , 山东大学
摘要: 一种基于多模态动态交互机制的图文解析方法,提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力,从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。
-
公开(公告)号:CN113065012A
公开(公告)日:2021-07-02
申请号:CN202110288644.5
申请日:2021-03-17
申请人: 山东省人工智能研究院 , 山东大学
摘要: 一种基于多模态动态交互机制的图文解析方法,提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力,从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。
-
公开(公告)号:CN118942017A
公开(公告)日:2024-11-12
申请号:CN202411418791.X
申请日:2024-10-12
IPC分类号: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
摘要: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
公开(公告)号:CN118379599A
公开(公告)日:2024-07-23
申请号:CN202410634901.X
申请日:2024-05-22
申请人: 山东大学
IPC分类号: G06V10/82 , G06V10/80 , G06N3/0464 , G06N3/0455 , G06V20/70 , G06V10/30
摘要: 本发明涉及基于异构特征协作的光学遥感显著性目标检测方法及系统,属于遥感图像处理、深度学习技术领域。包括:对给定的光学遥感图像进行异构特征提取,包括:利用卷积神经网络对给定的光学遥感图像进行特征提取,获得不同卷积层提取到的图像局部细节特征;在卷积神经网络的深层引入Transformer网络层,图像全局语义特征;融合提取到的不同阶段的图像全局语义特征和图像局部细节特征;通过构建显著性引导的注意力增强解码器,将不同阶段的特征进行融合,得到最终的显著性目标检测图。本发明实现了对显著性目标的准确定位和精细分割。
-
公开(公告)号:CN112925822A
公开(公告)日:2021-06-08
申请号:CN202110180044.7
申请日:2021-02-08
申请人: 山东大学
IPC分类号: G06F16/2458 , G06F16/26 , G06F16/28 , G06N3/04 , G06N3/08
摘要: 本发明涉及基于多表征学习的时间序列分类方法、系统、介质及装置,包括步骤如下:(1)基于不同的时间序列表征策略,对给定的时间序列进行多特征编码;(2)利用残差网络和双向长短时记忆网络,实现表征融合与增强;(3)利用多层感知机网络完成分类,并利用注意力机制实现分类可解释性。本发明通过构建一个多通道时序表征学习模型,能够基于多种表征策略对时序特征进行综合理解。本发明基于残差网络和双向长短时记忆网络的表征融合模型,能够对多视角表征进行有效融合并实现表征增强,从而有效提高分类精度。本发明能够基于注意力机制,对时间序列的重要时序特征进行有效的标识,即能够提供分类结果的可解释性依据,即实现了分类可解释性。
-
-
-
-
-
-
-
-
-