一种针对具有融合模块的视觉语言大模型的检测方法

发明公开

CN117809008A 一种针对具有融合模块的视觉语言大模型的检测方法审中-实审

请登陆查看更多内容

专利标题： 一种针对具有融合模块的视觉语言大模型的检测方法
申请号： CN202311857506.X

申请日： 2023-12-29
公开(公告)号： CN117809008A

公开(公告)日： 2024-04-02
发明人: 许燕 , 周扬 , 吴永健 , 赛音吉雅
申请人： 北京航空航天大学
申请人地址： 北京市海淀区学院路37号
专利权人： 北京航空航天大学
当前专利权人： 北京航空航天大学
当前专利权人地址： 北京市海淀区学院路37号
代理机构： 北京易捷胜知识产权代理有限公司
代理商 李会娟
主分类号： G06V10/10
IPC分类号： G06V10/10 ; G06V10/46 ; G06V10/80 ; G06V10/82 ; G06N3/045 ; G06N3/084 ; G06N3/096

摘要：

本发明涉及一种针对具有融合模块的视觉语言大模型的检测方法，包括：将包括文本和图像的待测信息输入训练后的视觉语言大模型，获取目标检测结果图；该视觉语言大模型中每一层编码结构的融合层包括：双模态特征拼接模块、融合模块、索引切片模块；第i层的双模态特征拼接模块用于获取文本拼接特征#imgabs0#和图像拼接特征#imgabs1#第i层的融合模块用于在交叉注意力空间中对#imgabs2#和#imgabs3#融合处理并特征对齐输出#imgabs4#和#imgabs5#第i层的索引切片模块用于分别对#imgabs6#和#imgabs7#进行索引切片操作，输出至第i+1层编码结构待处理双模态特征。上述方法中能更好地发挥基于融合模块的视觉语言大模型的迁移潜力，降低计算开销，提高计算速度。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V10/00	图像或视频识别或理解的安排（图像或视频中的字符识别 G06V30/10）
G06V10/10	.图像采集（文件图像扫描传输H04N1/00）（控制数码相机H04N5/232）