(一百): A Reference-free Evaluation Metric for Image Captioning
- 出处:EMNLP 2021
- 代码:https://github.com/jmhessel/clipscore;https://github.com/jmhessel/pycocoevalcap
- 题目:一种无参考的图像标题评价指标
- 主要内容:CLIPScore紧密关注图像-文本兼容性,比目前指标更贴近人类判断。
Abstract
图像字幕通常依赖于基于参考的自动评估,即将机器字幕与人类编写的字幕进行比较。这与人类评估标题质量的无引用方式形成了对比。
在本文中,我们报告了一个令人惊讶的经验发现,CLIP (Radford等人,2021年),一个预训练自web的400M图像+标题对的跨模态模型,可以用于图像覆盖的鲁棒自动评估,而不需要参考。跨越多个语料库的实验证明,我们新的无参考指标CLIPScore与人类判断的相关性最高,优于现有的基于参考的指标,如CIDEr和SPICE。
信息获取实验证明,CLIPScore紧密关注图像-文本兼容性,是现有的基于引用的指标的补充,强调文本-文本相似性。因此,我们还提出了一个引用增强版本,RefCLIPScore,它实现了更高的相关性。除了文字描述任务,几个案例研究揭示了CLIPScore表现良好的领域(剪贴艺术图像,替代文本评级),但与基于参考的知识相比,它也相对较弱,例如,需要更丰富的上下文知识的新闻标题。
1. Introduction
对于大多数文本生成任务,基于引