(一百): A Reference-free Evaluation Metric for Image Captioning

CLIPScore是一种利用CLIP模型进行图像标题无参考评估的新方法,其相关性与人类判断高度一致,优于传统的基于参考的评估指标。研究表明,CLIPScore在多种图像描述任务上表现出色,尤其是在图像-文本兼容性方面。此外,CLIPScore在某些特定场景,如剪贴画图像和社交媒体替代文本评价中表现出优势,但在涉及上下文和特定知识的新闻标题评价中,基于参考的指标更优。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 出处:EMNLP 2021
  • 代码:https://github.com/jmhessel/clipscore;https://github.com/jmhessel/pycocoevalcap
  • 题目:一种无参考的图像标题评价指标
  • 主要内容:CLIPScore紧密关注图像-文本兼容性,比目前指标更贴近人类判断。

Abstract

图像字幕通常依赖于基于参考的自动评估,即将机器字幕与人类编写的字幕进行比较。这与人类评估标题质量的无引用方式形成了对比。
在本文中,我们报告了一个令人惊讶的经验发现,CLIP (Radford等人,2021年),一个预训练自web的400M图像+标题对的跨模态模型,可以用于图像覆盖的鲁棒自动评估,而不需要参考。跨越多个语料库的实验证明,我们新的无参考指标CLIPScore与人类判断的相关性最高,优于现有的基于参考的指标,如CIDEr和SPICE
信息获取实验证明,CLIPScore紧密关注图像-文本兼容性,是现有的基于引用的指标的补充,强调文本-文本相似性。因此,我们还提出了一个引用增强版本,RefCLIPScore,它实现了更高的相关性。除了文字描述任务,几个案例研究揭示了CLIPScore表现良好的领域(剪贴艺术图像,替代文本评级),但与基于参考的知识相比,它也相对较弱,例如,需要更丰富的上下文知识的新闻标题。

1. Introduction

对于大多数文本生成任务,基于引

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值