-
公开(公告)号:CN118916518A
公开(公告)日:2024-11-08
申请号:CN202411411688.2
申请日:2024-10-11
IPC分类号: G06F16/738 , G06F16/735 , G06N5/022 , G06F16/783
摘要: 本发明属于数据处理技术领域。提供了一种基于知识增强的视频片段摘要生成方法及系统,抽取视频片段的多个视频帧的信息,得到向量表征集合、物体名称集合、视觉表征集合以及文本表征集合,进一步的得到以物体间常识关系为边的第一常识图、以物体间场景关系为边的第二常识图、以物体间时空关系为边的第三常识图;将第一常识图、第二常识图和第三常识图整合后采用图注意力网络,得到所有物体的表征,将所有物体的表征与向量表征集合拼接成为视频表征,以所述视频表征与提示词文本作为大语言模型的输入,得到视频片段的摘要文本描述;本发明通过融合常识知识、场景知识和时空知识,提升了视频摘要生成的准确性和全面性。
-
公开(公告)号:CN118942017A
公开(公告)日:2024-11-12
申请号:CN202411418791.X
申请日:2024-10-12
IPC分类号: G06V20/40 , G06V10/74 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/0442
摘要: 本发明属于多媒体检索技术领域,提供了面向实时任务的视频片段定位方法、系统、介质及设备,其技术方案为:获取视频和查询语句后,通过图像特征处理模型和自然语言特征处理模型来得出对应特征表示;通过跨模态动态哈希编码,将视频和查询语句两种不同模态的特征表示映射到同一汉明空间,而且动态哈希能够根据数据输入调整哈希编码;利用知识蒸馏技术从大参数量、高性能的教师模型中提取知识,并迁移至小参数量、低复杂度的学生模型中,从而构建轻量化的视频片段定位模型。本发明通过将动态哈希编码技术和蒸馏学习技术融合来构建轻量级模型,实现了高效捕捉视频内容的深层语义,同时确保实时任务的快速响应和准确性,解决了视频片段定位的困难。
-
公开(公告)号:CN118939682A
公开(公告)日:2024-11-12
申请号:CN202411425826.2
申请日:2024-10-14
IPC分类号: G06F16/2452 , G06F16/242 , G06N5/022
摘要: 本发明提供了一种基于知识引导的层级查询语句意图理解方法及系统,涉及自然语言处理技术领域,所述方法包括,获取查询语句,将查询语句转换为不同层级的语义嵌入向量;将外部知识图谱转化为知识嵌入矩阵,检索知识嵌入矩阵中与各层级的语义嵌入向量最相关的知识嵌入向量,将检索到的知识嵌入向量与对应的语义嵌入向量融合,得到各层级融合后的语义嵌入向量;根据各层级融合后的语义嵌入向量获取权重矩阵,计算权重重分配后的语义嵌入向量;基于注意力机制融合权重重分配后的语义嵌入向量与文本嵌入向量,得到查询语句的精确表征,确定查询语句的意图。本发明能够提高查询语句的理解与表征精准度。
-
公开(公告)号:CN118897905A
公开(公告)日:2024-11-05
申请号:CN202411388560.9
申请日:2024-10-08
IPC分类号: G06F16/735 , G06F16/783 , G06F16/738 , G06N3/0455 , G06N3/08
摘要: 本发明属于视频检索技术领域,提供了一种基于细粒度时空关联建模的视频片段定位方法及系统,其技术方案为:获取视频片段,利用时空查询表示,隐式挖掘视频片段中潜在所有物体信息;随后,基于时空表示多维交互模块,充分建模物体间时空关联关系;之后,通过有机融合局部和全局表示,全面提升视频片段的表示能力;最后,依据视频片段表示与用户查询表示相似性分数确定目标视频片段。本发明克服了现有技术中依赖离线物体检测工具进行物体时空信息提取、物体细粒度交互信息建模不充分等导致视频理解不佳的问题。
-
公开(公告)号:CN118918521A
公开(公告)日:2024-11-08
申请号:CN202411413830.7
申请日:2024-10-11
申请人: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 山东大学 , 浙江大华技术股份有限公司 , 哈尔滨工业大学(威海)
IPC分类号: G06V20/40 , G06V10/75 , G06V10/80 , G06V10/46 , G06V10/82 , G06V10/74 , G06N3/0464 , G06N3/042
摘要: 本发明属于目标视频片段定位领域,提供了一种基于多机协同的目标视频片段定位方法及系统,方法包括获取时间同步的多视角的单帧图像;进行各图像的特征匹配,依据特征匹配关系建立不同视角图像之间的对应关系;基于建立的对应关系,进行多视角图像的融合,得到完备的全景视频特征;响应于查询文本,基于全景视频特征,进行目标视频片段定位。本发明通过特征匹配建立不同视角之间的对应关系,利用视角融合剔除重复冗余信息,生成完整的全景视图,实现不同视角的互补,基于视角融合后的视频实现目标视频片段的高效定位;克服了现有技术中多视角视频匹配难、融合差的缺陷。
-
公开(公告)号:CN118918516A
公开(公告)日:2024-11-08
申请号:CN202411396801.4
申请日:2024-10-09
申请人: 山东大学 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) , 浙江大华技术股份有限公司 , 山东师范大学
摘要: 本发明属于目标视频片段定位技术领域,提供了一种基于语义对齐的目标视频片段定位方法、系统及产品,其技术方案为基于不同层次上的视频和文本两种模态的语义特征,通过计算对齐分布概率获得全局对齐损失函数和局部语义对齐损失函数;根据全局对齐损失函数和局部语义对齐损失函数,对齐视频和文本两种模态的语义特征;推测缺失的模态语义特征,并补全缺失的模态语义特征对应的真实语义特征,得到视频和文本两种模态完整的语义特征;根据视频和文本两种模态完整的语义特征替换输入的视觉与文本特征,对目标视频片段定位。本发明能进行有效的跨模态语义对齐建模,从而克服了多模态信息缺失与语义信息模糊的问题,实现目标视频片段的准确检索。
-
公开(公告)号:CN117934543A
公开(公告)日:2024-04-26
申请号:CN202311814837.5
申请日:2023-12-26
申请人: 浙江大华技术股份有限公司
摘要: 本申请公开了一种位置预测方法及电子设备,该位置预测方法包括:将实际可见度低于预设可见度阈值的移动对象作为位置丢失对象;对位置丢失对象进行初始位置预测,得到位置丢失对象的初始位置;以及,确定当前定位场景中遮挡位置丢失对象的遮挡障碍物;计算在初始位置下,位置丢失对象被遮挡障碍物遮挡后的可见程度,得到预测可见度;基于同一时间下位置丢失对象对应的实际可见度和预测可见度,调整位置丢失对象的初始位置,得到位置丢失对象的位置预测结果。可以通过实际可见度和预测可见度判断初始位置是否符合当前的真实情况,使得最终的位置预测结果更加符合真实场景,在移动对象被遮挡的情况下仍然可以移动对象的准确定位。
-
公开(公告)号:CN117714681A
公开(公告)日:2024-03-15
申请号:CN202311465058.9
申请日:2023-11-03
申请人: 浙江大华技术股份有限公司
IPC分类号: H04N19/103 , H04N19/167 , H04N19/147
摘要: 本申请提出一种视频编码方法、视频编码器、视频解码方法、视频解码器以及计算机存储介质。所述视频编码方法包括:获取当前编码单元,以及预设范围内已编码单元的预测编码模式;按照所述已编码单元的预测编码模式判断所述当前编码单元对应的图像区域是否为自然场景区域;若是,屏蔽调色板模式,选择其他预测编码模式对所述当前编码单元编码的最佳预测编码模式;按照所述最佳预测编码模式对所述当前编码单元进行编码。通过上述视频编码方法,能够在自然场景区域,自适应的屏蔽调色板模式相关的计算,提升自然场景下的编码速度。
-
公开(公告)号:CN115083004A
公开(公告)日:2022-09-20
申请号:CN202211014418.9
申请日:2022-08-23
申请人: 浙江大华技术股份有限公司
摘要: 本申请公开了一种身份识别方法、装置和计算机可读存储介质,该身份识别方法包括:获取待处理视频,待处理视频包括多帧原始图像;从原始图像中筛选出待处理图像;从待处理图像中检测出目标对象的多种维度的对象特征;对象特征包括目标对象的人脸特征信息与多种维度的非人脸特征信息;检测目标对象的人脸特征信息是否与已创建的人脸特征库成功匹配;若否,则基于至少一种维度的非人脸特征信息,确定目标对象的身份是否为预设身份;响应于目标对象的身份为预设身份,将目标对象的人脸特征信息更新至人脸特征库。通过上述方式,本申请能够保证身份识别精度,降低身份识别的成本。
-
公开(公告)号:CN113869357A
公开(公告)日:2021-12-31
申请号:CN202110945096.9
申请日:2021-08-17
申请人: 浙江大华技术股份有限公司
摘要: 本申请提供了一种属性类别识别方法、设备及计算机存储介质。该属性类别识别方法包括:基于待检测的目标在图像序列中各个图像的属性信息,确定各个图像中目标的属性类别和质量评估信息;基于确定的各个属性类别和各个质量评估信息,确定目标的融合属性类别。通过上述方式,本申请的属性类别识别方法提高了属性类别识别准确率。
-
-
-
-
-
-
-
-
-