多模态预训练模型的训练方法、应用方法及装置

    公开(公告)号:CN112990297B

    公开(公告)日:2024-02-02

    申请号:CN202110262221.6

    申请日:2021-03-10

    摘要: 况。本申请提出一种多模态预训练模型的训练方法、应用方法及装置,该方法包括:构建双塔结构的多模态预训练模型;获取包括正样本图文对的正样本数据集和包括负样本图文对的负样本数据集;根据正样本数据集和负样本数据集训练多模态预训练模型,多模态预训练模型包括用于对正样本图文对和负样本图文对进行图文相似度对比学习的跨模态对比学习模块。本申请中多模态预训练模型采用双塔结构和跨模态对比学习算法,对图像和文本模态都构建大量负样本,模型表达能力强,提高了图文对的处理精度。该(56)对比文件Junhua Mao 等.Training and EvaluatingMultimodal Word Embeddings with Large-scale Web Annotated Images《.MachineLearning》.2016,1-9.Yu Liu.Learning a Recurrent ResidualFusion Network for Multimodal Matching.《2017 IEEE International Conference onComputer Vision (ICCV)》.2017,1-10.

    多模态预训练模型的训练方法、应用方法及装置

    公开(公告)号:CN112990297A

    公开(公告)日:2021-06-18

    申请号:CN202110262221.6

    申请日:2021-03-10

    摘要: 本申请提出一种多模态预训练模型的训练方法、应用方法及装置,该方法包括:构建双塔结构的多模态预训练模型;获取包括正样本图文对的正样本数据集和包括负样本图文对的负样本数据集;根据正样本数据集和负样本数据集训练多模态预训练模型,多模态预训练模型包括用于对正样本图文对和负样本图文对进行图文相似度对比学习的跨模态对比学习模块。本申请中多模态预训练模型采用双塔结构和跨模态对比学习算法,对图像和文本模态都构建大量负样本,模型表达能力强,提高了图文对的处理精度。该模型计算图文间的整体相似度,根据相似度判断图文是否对应,基于图文弱相关假设,更贴合实际应用中图文对中图文间语义弱相关的实际情况。