一种对图像描述的结果进行自动评估的方法
摘要:
本发明提供了一种对图像描述的结果进行自动评估的方法,包括:步骤1,分别抽取图像和文本的场景图;步骤2,利用多模态预训练模型CLIP对相关元素进行编码;步骤3,计算得到句子质量评价的最终分数。本发明基于场景图来辅助判断图像和文本之间的一致性,提高了无标注场景下质量评价的可信度;本发明使用CLIP模型对图像、文本、场景图进行编码,不仅确保了语义空间的一致性,大大提高了场景图相似度比较的准确性,还保证了编码能力的可更新性。
公开/授权文献
0/0