视觉模型的预训练方法、装置、电子设备及存储介质

    公开(公告)号:CN117994617A

    公开(公告)日:2024-05-07

    申请号:CN202410103211.1

    申请日:2024-01-24

    Abstract: 本申请公开了视觉模型的预训练方法、装置、电子设备及存储介质,涉及人工智能技术领域。将获取的第一分辨率的实例图像转换为第二分辨率的掩码图像,将实例图像输入至代理模型提取实例级特征,将掩码图像输入至视觉模型提取图像级特征,并将实例级特征和图像级特征进行融合得到融合特征。利用代理模型根据融合特征进行目标检测得到检测结果,并计算目标检测损失。同时根据图像级特征对掩码图像进行重建得到重建图像,并计算重建损失。最后根据重建损失和目标检测损失更新视觉模型的视觉模型权重,直至得到预训练完成的视觉模型。可以高效地对视觉模型进行实例级预训练,有效提高视觉模型在下游精细化任务上的泛化性。

Patent Agency Ranking