论文:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
Qwen-VL 是基于千问大语言模型训练的多模态大模型,其在多种任务上(如OCR、VQA、Caption等)表现都优于同尺寸模型,并且支持多语言、多图片理解,此外对于细粒度视觉理解表现也是极其优秀
1. Methodology
1.1 模型结构
整体由三部分组成
(1)大语言模型:采用了Qwen-7B,并由预训练权重进行初始化
(2)视觉编码器:采用了ViT架构,并通过 Open