-
公开(公告)号:CN117688198B
公开(公告)日:2024-07-05
申请号:CN202410148264.5
申请日:2024-02-02
Applicant: 北京大学
IPC: G06F16/583 , G06F16/58 , G06N3/0455 , G06N3/0464 , G06N3/096 , G06T7/73
Abstract: 本发明涉及视觉识别技术领域,提供一种基于预训练模型的视觉定位方法,所述预训练模型包括图像编码器和文本编码器,该方法包括:接收待查询语句和给定图像;利用所述图像编码器获取所述给定图像的一维特征,记为第一特征;利用所述文本编码器获取所述待查询语句的一维特征,记为第二特征;利用所述第一特征、第二特征作为软标签引导所述给定图像和所述待查询语句的标记化表达的开始位置,并引导位置标记的学习;基于所述位置标记预测视觉对象定位边框。本发明通过融合图像、语句双模态特征融合以及通过多模态蒸馏损失的计算能够实现多模态之间的知识迁移,解决了模态领域之间的差距问题,进而提高预测性能。
-
公开(公告)号:CN117688198A
公开(公告)日:2024-03-12
申请号:CN202410148264.5
申请日:2024-02-02
Applicant: 北京大学
IPC: G06F16/583 , G06F16/58 , G06N3/0455 , G06N3/0464 , G06N3/096 , G06T7/73
Abstract: 本发明涉及视觉识别技术领域,提供一种基于预训练模型的视觉定位方法,所述预训练模型包括图像编码器和文本编码器,该方法包括:接收待查询语句和给定图像;利用所述图像编码器获取所述给定图像的一维特征,记为第一特征;利用所述文本编码器获取所述待查询语句的一维特征,记为第二特征;利用所述第一特征、第二特征作为软标签引导所述给定图像和所述待查询语句的标记化表达的开始位置,并引导位置标记的学习;基于所述位置标记预测视觉对象定位边框。本发明通过融合图像、语句双模态特征融合以及通过多模态蒸馏损失的计算能够实现多模态之间的知识迁移,解决了模态领域之间的差距问题,进而提高预测性能。
-