一种基于视觉Transformer的多视觉立体匹配系统及方法

    公开(公告)号:CN117934875A

    公开(公告)日:2024-04-26

    申请号:CN202410104177.X

    申请日:2024-01-24

    申请人: 复旦大学

    摘要: 本发明涉及一种基于视觉Transformer的多视觉立体匹配系统及方法,该系统包括特征抽取模块和代价矩阵模块,特征抽取模块用于提取图像特征、抽取跨视图信息;代价矩阵模块通过单应变化将源图片特征变化到参考图片的坐标系下,并且进行特征融合,利用CVT以及3D楔形位置编码FPE和自适应注意力缩放AAS,以得到深度估计结果。与现有技术相比,本发明分别设计MVS流程中特征编码器和成本体积正则化对应的注意力机制,通过SVA将跨视图信息无缝地整合到预训练的DINOv2特征中。此外,在代价矩阵模块中设计FPE和AAS,以增强CVT对高分辨率图像的泛化能力,有效提高图像重建质量。