Qwen2-VL: 更清晰地看世界
历经一年研发,阿里云推出新一代视觉语言模型 Qwen2-VL,支持多语言、长视频理解、视觉推理及智能体交互,性能超越 GPT-4o 等模型,并开源 2B 和 7B 模型。
一、 Qwen2-VL 的突破
- 视觉理解更强大:支持不同分辨率、长宽比图片,在多项基准测试中取得全球领先,例如文档理解方面优势明显。
- 长视频理解:可理解20分钟以上长视频,应用于问答、对话、内容创作。
- 视觉智能体:集成到手机、机器人等设备,根据视觉和指令自动操作。
- 多语言支持:支持中英多语种,包括欧洲语言、日韩语、阿拉伯语、越南语等。
二、 模型性能
- 72B 模型在大部分指标上达到最优,超越 GPT-4o 和 Claude3.5-Sonnet,刷新开源多模态模型最佳表现。
- 7B 模型在文档理解和多语言文字图像理解方面处于 SOTA 水平。
- 2B 模型支持移动端应用,在视频文档和通用问答方面表现优异。
三、 模型能力案例
-
细节识别理解:识别植物、地标、手写文字、多语言,例如:
User: 转录图中内容,并识别图中每段内容的语言。(图片) Qwen2-VL: 1. 汉语,也称为“华语”。(...省略) 语言:中文 2. 日本語は地方ごとに多様な方言があり、(...省略) 语言:日语 (...省略)
-
视觉推理:解决数学、编程、信息提取等现实问题,例如:
User: Solve the algorithmic problem in the web page. (网页截图) Qwen2-VL: To solve the “Snake in Matrix” problem, we need to implement a function (...省略,并给出Python代码)
-
视频理解与实时聊天:总结视频要点、回答问题、连贯对话,例如:
User: 视频中的人在做什么? (视频) Qwen2-VL: 视频中的人正在使用吸尘器清理地板。 User: 如果要进一步清洁地面的话,接下来该怎么做? Qwen2-VL: 如果要进一步清洁地面,可以使用拖把或湿布擦拭地面,以去除吸尘器无法清除的污渍和灰尘。 (...省略,后续对话)
-
Visual Agent 能力:函数调用和视觉交互,例如:
# 使用API调用Qwen2-VL-72B识别图片