文章主要内容
本文聚焦于视觉大语言模型(VLLMs)在层次化视觉理解方面的表现,通过构建包含6种分类法和4个图像数据集的约100万道四选一视觉问答(VQA)任务,对VLLMs的层次一致性和准确性展开系统评估。研究发现,即便是最先进的VLLMs,在层次一致性方面也存在显著不足,例如Qwen2.5-VL-72B在iNaturalist分类法中超过67%的层次路径预测错误。进一步研究表明,大语言模型(LLMs)是导致这一问题的瓶颈——LLMs缺乏视觉世界的分类法知识,而视觉编码器和投影模块能够保留高判别性和结构化的视觉特征。通过微调实验发现,基于VQA任务的微调对LLM文本层次一致性的提升效果优于对VLLM视觉层次一致性的提升,这进一步验证了LLMs的瓶颈作用。
文章创新点
-
首次系统评估VLLMs的层次化视觉理解能力
构建了包含生物分类法和WordNet语义的多层次VQA任务,揭示了VLLMs在层次路径一致性上的普遍缺陷。 -
明确LLMs是层次化理解的瓶颈