一种对图像描述的结果进行自动评估的方法

发明公开

请登陆查看更多内容

专利标题： 一种对图像描述的结果进行自动评估的方法
申请号： CN202210392208.7

申请日： 2022-04-14
公开(公告)号： CN114912512A

公开(公告)日： 2022-08-16
发明人: 张建兵 , 马海程 , 马征 , 黄博 , 何亮 , 戴新宇 , 黄书剑 , 陈家骏
申请人： 南京大学
申请人地址： 江苏省南京市栖霞区仙林大道163号南京大学
专利权人： 南京大学
当前专利权人： 南京大学
当前专利权人地址： 江苏省南京市栖霞区仙林大道163号南京大学
代理机构： 江苏圣典律师事务所
代理商 胡建华; 于瀚文
主分类号： G06K9/62
IPC分类号： G06K9/62 ; G06V10/74 ; G06V10/80 ; G06N20/00

摘要：

本发明提供了一种对图像描述的结果进行自动评估的方法，包括：步骤1，分别抽取图像和文本的场景图；步骤2，利用多模态预训练模型CLIP对相关元素进行编码；步骤3，计算得到句子质量评价的最终分数。本发明基于场景图来辅助判断图像和文本之间的一致性，提高了无标注场景下质量评价的可信度；本发明使用CLIP模型对图像、文本、场景图进行编码，不仅确保了语义空间的一致性，大大提高了场景图相似度比较的准确性，还保证了编码能力的可更新性。

公开/授权文献

CN114912512B 一种对图像描述的结果进行自动评估的方法公开/授权日：2024-07-23

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06K	图形数据读取（图像或视频识别或理解G06V）；数据的呈现；记录载体；处理记录载体
G06K9/00	识别模式的方法或装置（图形读取或将机械参数模式（例如力或存在）转换为电信号的方法或装置 G06K11/00）（图像或视频识别或理解 G06V）（语音识别 G10L15/00 )
G06K9/62	.应用电子设备进行识别的方法或装置