一种基于多模态思维链的多模态大语言模型属性预测方法

    公开(公告)号:CN119693768A

    公开(公告)日:2025-03-25

    申请号:CN202411765587.5

    申请日:2024-12-04

    Applicant: 浙江大学

    Abstract: 本发明共公开了一种基于多模态思维链的多模态大语言模型属性预测方法,包括:获取多模态大语言模型,与掩码生成器和场景图解析器一起构成多模态属性预测框架;设计分层思维链的推理方法,将属性预测任务输入多模态属性预测框架,提取出属性表的层级,生成分层、格式化的推理提示;将属性预测任务分解成层级化的子任务,并为模型的下一步预测选取提示方法;通过批判性思维监督模型预测过程;采用逻辑检查的提示方法,识别出图像中的物体类别,并结合模型中的常识知识,提取相对应的属性值;结合生成的场景图与模型中的常识知识,对预测出的属性进行检查。本发明可有效提升属性预测任务的上下文理解能力、逻辑一致性、任务通用性和模型推理效率。

Patent Agency Ranking