发明公开
- 专利标题: 一种针对具有融合模块的视觉语言大模型的检测方法
-
申请号: CN202311857506.X申请日: 2023-12-29
-
公开(公告)号: CN117809008A公开(公告)日: 2024-04-02
- 发明人: 许燕 , 周扬 , 吴永健 , 赛音吉雅
- 申请人: 北京航空航天大学
- 申请人地址: 北京市海淀区学院路37号
- 专利权人: 北京航空航天大学
- 当前专利权人: 北京航空航天大学
- 当前专利权人地址: 北京市海淀区学院路37号
- 代理机构: 北京易捷胜知识产权代理有限公司
- 代理商 李会娟
- 主分类号: G06V10/10
- IPC分类号: G06V10/10 ; G06V10/46 ; G06V10/80 ; G06V10/82 ; G06N3/045 ; G06N3/084 ; G06N3/096
摘要:
本发明涉及一种针对具有融合模块的视觉语言大模型的检测方法,包括:将包括文本和图像的待测信息输入训练后的视觉语言大模型,获取目标检测结果图;该视觉语言大模型中每一层编码结构的融合层包括:双模态特征拼接模块、融合模块、索引切片模块;第i层的双模态特征拼接模块用于获取文本拼接特征#imgabs0#和图像拼接特征#imgabs1#第i层的融合模块用于在交叉注意力空间中对#imgabs2#和#imgabs3#融合处理并特征对齐输出#imgabs4#和#imgabs5#第i层的索引切片模块用于分别对#imgabs6#和#imgabs7#进行索引切片操作,输出至第i+1层编码结构待处理双模态特征。上述方法中能更好地发挥基于融合模块的视觉语言大模型的迁移潜力,降低计算开销,提高计算速度。