基于多模态大模型的零样本潜在风险行为检测方法、装置
摘要:
本申请涉及计算机视觉领域,公开一种基于多模态大模型的零样本潜在风险行为检测方法、装置,包括创建包含多种潜在风险行为的图像数据集,并对图像中的人员进行精确框选及行为类别标签分配;构建行为描述词库;根据描述词和提示词工程,构建文本提示词;构建两阶段多模态识别框架,使用目标检测算法定位图像中的人员,通过多模态大模型对图文特征进行深层次理解并生成结果;使用多模态大模型,对每个个体进行特征分析,结合描述提示词生成策略,提取与潜在风险行为相关的关键特征;根据每个描述词与图像内容的匹配程度,生成行为描述向量;根据行为描述向量,判断图像中人员是否正在进行特定潜在风险行为。本公开提高了数据集的实用性和识别精度。
0/0