Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models
目录
1. 引言
近年来,大型视觉语言模型(LVLMs) 在跨模态理解任务中取得了显著进展。然而,高分辨率图像 含有丰富的细节信息,而现有的LVLMs受限于固定分辨率的视觉编码器,导致处理高分辨率图像时信息损失严重。
为了应对这一挑战,子图划分(sub-image partitioning) 成为主流方法之一。然而,传统的子图划分方法对所有子图一视同仁,未能充分利用图像的信息密度分布,从而影响模型的整体理解能力。本文提出了一种新颖的 全局语义引导的权重分配模块(Global Semantic-guided Weight Allocator,GSWA),通过模拟人类视觉注意机制,为信息密集的子图分配更高的权重,以优化视觉信息处理能力。
2. 本文贡献
本文的核心贡献包括:
提出子图信息密度分析:研究表明,不同子图对整体图像的语义贡献不同,信息密集的子图对于模型理解起关键作用。
设计了 GSWA 模块:该模块基于自注意力机制(Self-Attention),动态调整子图权重,使模型更关注语义相关性高的区域。
构建 SleighVL 模型:该模型基于 InternVL2-2B,集成了 GSWA 模块,在多个基准测试中表现优越。
全面的实验评估:SleighVL 在 MME、OCRBench、TextVQA、RealWorldQA 等多项测试中取得了领先性能。
3. 方法
3.1 现有高分辨率图像处理方法
传统的高分辨率图像处理主要包括:
训练高分辨率视觉编码器:计算量大,训练成本高。
使用多个编码器:架构冗余,计算资源消耗高。
子图划分:更具可扩展性,但现有方法未能考虑信息密度差异。
3.2 全局语义引导权重分配(GSWA)
GSWA 模块的核心思想:
1)信息密度计算:
- 采用 Vision Transformer(ViT) 计算子图的全局语义相关性。
- 计算子图 token 与全局图像的语义相似度。
2)动态权重分配:
- 通过 自注意力机制 计算每个子图的重要性,分配更高的权重给关键区域。
- 避免信息密集区域被平等对待,从而提升模型的整体视觉理解能力。
3)模型架构 SleighVL 主要由以下部分组成:
- 动态裁剪模块:自适应调整子图尺寸,保持原始长宽比。
- InternViT 视觉编码器:提取子图特征。
- GSWA 模块:分配子图权重,提高视觉信息整合能力。
- 视觉-语言投影层:对齐视觉和文本特征,以便传输至大型语言模型(LLM)。
- InternLM2-1.8B 语言模型:进行跨模态信息融合和文本生成。
4. 实验结果
4.1 通用基准测试
SleighVL 在多项主流基准测试中表现优异:
MME(多模态评测): 得分 1913(优于 InternVL2-2B 的 1876)。
MMB CN & SEED Benchmarks:在多个多模态任务中超越其他 SOTA 模型。
4.2 真实世界场景测试
SleighVL 在 RealWorldQA、HRBench4K、HRBench8K 等高分辨率图像任务中表现出色:
RealWorldQA:SleighVL 取得 57.8 分,超过 InternVL2-2B(57.2)。
HRBench4K/8K:在处理 4K 和 8K 图像时,SleighVL 仍保持较强的性能。
4.3 文字识别(OCR)和文本丰富VQA任务
SleighVL 在 OCR 相关任务(如 OCRBench、TextVQA、DocVQA)中展现强劲的文本识别和理解能力:
OCRBench:SleighVL 得分 803,高于 InternVL2-2B(784)。
TextVQA:SleighVL 得分 75.9,优于 MiniCPM-V2(74.1)。
DocVQA:SleighVL 得分 87.1,接近 LLaVA-OneVision-7B(87.5)。
4.4 幻觉检测与科学知识评测
POPE(幻觉检测):SleighVL 得分 87.8,展现了强大的稳定性。
科学 VQA(AI2D & ScienceQA):SleighVL 在科学推理任务中取得领先成绩。
4.5 消融实验
为了验证 GSWA 模块的有效性,作者进行了以下消融实验:
GSWA 替换为简单的余弦相似度 → MME 下降 2.39%。
GSWA 替换为 Cross-Attention → MME 下降 0.84%。
去除 GSWA 直接微调 InternVL2-2B → MME 下降 3.49%。
结论: GSWA 模块的自注意力机制在子图权重分配方面比其他方法更具优势,有效提升了模型在高分辨率图像处理中的性能。
5. 限制与未来工作
5.1 现有问题
计算量增加:
- 子图划分会增加视觉 tokens 数量,提高推理和训练成本。
- GSWA 模块本身引入了额外的计算需求。
缺乏文本信息的引导:当前 GSWA 仅基于视觉信息,而未结合文本信息进行权重优化,可能导致某些任务中信息对齐问题。
5.2 未来改进方向
引入文本引导权重分配:结合语言输入优化 GSWA,使子图权重分配更加符合任务需求。
视觉 token 压缩技术:在低信息密度区域减少 token 计算,以降低计算成本,提高推理速度。
6. 结论
本文提出了一种全局语义引导的子图权重分配方法(GSWA),有效解决了 LVLMs 在处理高分辨率图像 时的信息丢失和视觉注意力分散问题。GSWA 通过 自注意力机制 计算子图信息密度,动态调整权重,优化视觉信息融合能力。
实验结果表明,集成GSWA的SleighVL模型在多项基准测试中均取得领先成绩,尤其是在 高分辨率图像理解、OCR任务、文本丰富VQA 领域展现了卓越性能。
尽管GSWA方法仍有计算成本和文本引导优化的空间,但它为 高效、高分辨率多模态学习 提供了新的方向,具有重要的研究价值。
论文地址:https://arxiv.org/abs/2501.14276
进 Q 学术交流群:922230617