[240903] Qwen2-VL: 更清晰地看世界 | Elasticsearch 再次拥抱开源！

x-cmd

于 2024-09-03 09:15:43 发布

阅读量1.1k

点赞数 11

CC 4.0 BY-SA版权

分类专栏： daily blog 文章标签： elasticsearch 开源大数据 Qwen 视觉语言模型 gpt 数据分析

本文链接：https://blog.csdn.net/edwinjhlee/article/details/141847514

Qwen2-VL: 更清晰地看世界

历经一年研发，阿里云推出新一代视觉语言模型 Qwen2-VL，支持多语言、长视频理解、视觉推理及智能体交互，性能超越 GPT-4o 等模型，并开源 2B 和 7B 模型。

一、 Qwen2-VL 的突破

视觉理解更强大：支持不同分辨率、长宽比图片，在多项基准测试中取得全球领先，例如文档理解方面优势明显。
长视频理解：可理解20分钟以上长视频，应用于问答、对话、内容创作。
视觉智能体：集成到手机、机器人等设备，根据视觉和指令自动操作。
多语言支持：支持中英多语种，包括欧洲语言、日韩语、阿拉伯语、越南语等。

二、模型性能

72B 模型在大部分指标上达到最优，超越 GPT-4o 和 Claude3.5-Sonnet，刷新开源多模态模型最佳表现。
7B 模型在文档理解和多语言文字图像理解方面处于 SOTA 水平。
2B 模型支持移动端应用，在视频文档和通用问答方面表现优异。

三、模型能力案例

细节识别理解：识别植物、地标、手写文字、多语言，例如：

User: 转录图中内容，并识别图中每段内容的语言。（图片）
Qwen2-VL: 1. 汉语，也称为“华语”。（...省略） 语言：中文
         2. 日本語は地方ごとに多様な方言があり、（...省略） 语言：日语
         （...省略）

视觉推理：解决数学、编程、信息提取等现实问题，例如：

User: Solve the algorithmic problem in the web page. （网页截图）
Qwen2-VL: To solve the “Snake in Matrix” problem, we need to implement a function (...省略，并给出Python代码)

视频理解与实时聊天：总结视频要点、回答问题、连贯对话，例如：

User: 视频中的人在做什么？ （视频）
Qwen2-VL: 视频中的人正在使用吸尘器清理地板。
User: 如果要进一步清洁地面的话，接下来该怎么做？
Qwen2-VL: 如果要进一步清洁地面，可以使用拖把或湿布擦拭地面，以去除吸尘器无法清除的污渍和灰尘。
（...省略，后续对话）

Visual Agent 能力：函数调用和视觉交互，例如：
```
# 使用API调用Qwen2-VL-72B识别图片
```

最低0.47元/天解锁文章

[240903] Qwen2-VL: 更清晰地看世界 | Elasticsearch 再次拥抱开源！

目录

Qwen2-VL: 更清晰地看世界