一种针对具有融合模块的视觉语言大模型的检测方法
摘要:
本发明涉及一种针对具有融合模块的视觉语言大模型的检测方法,包括:将包括文本和图像的待测信息输入训练后的视觉语言大模型,获取目标检测结果图;该视觉语言大模型中每一层编码结构的融合层包括:双模态特征拼接模块、融合模块、索引切片模块;第i层的双模态特征拼接模块用于获取文本拼接特征#imgabs0#和图像拼接特征#imgabs1#第i层的融合模块用于在交叉注意力空间中对#imgabs2#和#imgabs3#融合处理并特征对齐输出#imgabs4#和#imgabs5#第i层的索引切片模块用于分别对#imgabs6#和#imgabs7#进行索引切片操作,输出至第i+1层编码结构待处理双模态特征。上述方法中能更好地发挥基于融合模块的视觉语言大模型的迁移潜力,降低计算开销,提高计算速度。
0/0