多模态大语言模型构建方法及系统

    公开(公告)号:CN119398163A

    公开(公告)日:2025-02-07

    申请号:CN202411185864.5

    申请日:2024-08-27

    Applicant: 北京大学

    Abstract: 本发明提供一种多模态大语言模型构建方法及系统,该方法包括:获取样本图像数据和所述样本图像数据对应的样本文本数据,其中,所述样本文本数据包括正确描述所述样本图像数据的正样本文本数据和错误描述所述样本图像数据的负样本文本数据;基于对比学习损失函数,根据所述样本图像数据和所述样本文本数据,对多模态大语言模型进行迭代训练,并在满足预设训练条件后,得到训练好的多模态大语言模型,其中,所述对比学习损失函数是根据所述样本图像数据对应的样本视觉特征表示与所述样本文本数据对应的样本文本特征表示之间的互信息构建得到的。本发明提高了多模态大语言模型在面对真实视觉数据时的鲁棒性和可靠性。

Patent Agency Ranking