-
公开(公告)号:CN116721381A
公开(公告)日:2023-09-08
申请号:CN202310566469.0
申请日:2023-05-19
Applicant: 浙江大学滨江研究院
IPC: G06V20/52 , G06V20/40 , G06V10/44 , G06V10/80 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于视频场景的优化目标识别方法及系统,包括:将视频图像数据进行抽帧,获得输入图像;通过主干网络提取获得输入图像的特征图,使用ROIAlign在特征图中生成候选框,获得全图级特征xgiob;通过主干网络提取获得输入图像的上下文嵌入特征图,使用RPN和ROIAlign在所述上下文嵌入特征图中生成候选框,获得实例级特征xins;将全图级特征xglob和实例级特征xins进行融合,获得层次上下文ROI特征xcont;使用ROIAlign在所述上下文嵌入特征图中生成候选框,获得原ROI特征xfpn;将层次上下文ROI特征xcont和原ROI特征xfpn进行融合,获得融合特征xfu;将层次上下文ROI特征xcont、原ROI特征xfpn及融合特征xfu输入至分类检测网络中,获得输入图像的识别预测结果。本发明提升了目标检测的准确率。
-
公开(公告)号:CN118657975A
公开(公告)日:2024-09-17
申请号:CN202410561499.7
申请日:2024-05-08
IPC: G06V10/764 , G06V10/762 , G06F16/33
Abstract: 本发明公开了一种基于多模态模型的领域大规模图文对数据集通用构建方法,包括原始数据选择、基于领域关键词的数据提取、数据整合和筛选、基于领域特定的多模态大模型的文本生成、基于领域特征的专项过滤等。本发明利用各种公开数据,在不同领域多模态大模型的场景下,对不同原始格式、不同组织形式、不同内容的数据进行重新组织,对缺乏文本描述的图像数据,利用多模态模型进行特定领域的文本标注,然后对数据进行检查和筛选,从而构建新的符合特定要求的数据集,为当前各个领域的多模态模型训练和落地提供数据支撑。
-
公开(公告)号:CN119888580A
公开(公告)日:2025-04-25
申请号:CN202510348096.9
申请日:2025-03-24
IPC: G06V20/40 , H04N19/132 , H04N19/13 , G06V10/80 , G06V10/82 , G06N3/0455
Abstract: 本发明公开了一种服务监管场景下视频表征融合方法,包括如下步骤:步骤一,选择训练数据,对于较短的视频选择Panda70M数据集,对于较长的视频选择Charades、CharadesEgo、ActivityNet和Valley的caption数据;步骤二,首先获取feature cube,然后创建帧表征融合模块,通过帧表征融合模块使用静态的注意力掩码,让每个Query只需关注feature cube中固定的局部的token,或者使用动态的注意力掩码,让每个Query关注的子立方体的位置按需变化;步骤三,以Q‑Former为基础,基于步骤一选择的训练数据创建三个损失函数进行联合训练,完成视频表征融合。本发明的服务监管场景下视频表征融合方法,通过步骤一至步骤三的设置,便可简单有效的实现视频表征的融合了。
-
公开(公告)号:CN118038315A
公开(公告)日:2024-05-14
申请号:CN202410123601.5
申请日:2024-01-30
IPC: G06V20/40 , G06F40/20 , G06F18/213 , G06F18/22 , G06F40/166 , G06F40/242 , G06F40/268
Abstract: 本发明公开了一种多模态视频数据集优化与预测处理方法,包括如下步骤:步骤一,采用多图对一文的策略处理视频数据集;步骤二,对每个视频进行识别;步骤三,使用自然语言处理工具,对视频相关文本进行深入分析,从中提取关键信息;步骤四,在经过步骤三自动进行文本分析以后,进行视频‑文本匹配的初步验证;步骤五,在经过自动处理完成后,提交给人工进行审核;步骤六,将经过优化的视频数据集用于训练多模态预测模型。本发明的多模态视频数据集优化与预测处理方法,通过步骤一至步骤六的设置,便可通过整合先进的多模态学习技术,提高了数据处理效率和预测精准度。
-
公开(公告)号:CN118038043A
公开(公告)日:2024-05-14
申请号:CN202410123602.X
申请日:2024-01-30
Abstract: 本发明公开了一种基于三阶段训练策略的训练文本‑视觉指代分割的方法,该方法训练得到的模型能够强化SAM模型基于文本的指代分割能力。模型采用了图像文本对和纯物体检测数据,这两种数据类型,相比于专门为文本‑视觉指代分割任务标注的数据,更易于获取,且它们庞大的数据量和多样的来源为模型提供了更广泛的文本和图像特征对齐领域。
-
公开(公告)号:CN116645640A
公开(公告)日:2023-08-25
申请号:CN202310526676.3
申请日:2023-05-11
Applicant: 浙江大学滨江研究院
Abstract: 本发明公开了一种基于向量交叉的目标统计方法、装置及设备,方法包括:(1)实时采集目标区域的监控视频图像;在监控视角下,在目标区域划定跨越线段,定义跨越线段两端点坐标分别为C、D,规定向量CD的顺时针0‑180°方向为进入,逆时针0‑180°方向为离开;(2)通过目标检测模型和目标追踪模型,检测前一时刻t‑1和当前时刻t的监控视频图像中目标物位置的中心坐标A和B;(3)判断目标物从前一时刻t‑1到当前时刻t是否为进入或离开;若是进入或离开,则分别进行计数,否则不进行计数;(4)重复步骤(2)‑(3),对目标物进行统计。本发明的目标物统计方法精度高。
-
-
-
-
-