[240903] Qwen2-VL: 更清晰地看世界 | Elasticsearch 再次拥抱开源!

Qwen2-VL: 更清晰地看世界

历经一年研发,阿里云推出新一代视觉语言模型 Qwen2-VL,支持多语言、长视频理解、视觉推理及智能体交互,性能超越 GPT-4o 等模型,并开源 2B 和 7B 模型。

一、 Qwen2-VL 的突破

  1. 视觉理解更强大:支持不同分辨率、长宽比图片,在多项基准测试中取得全球领先,例如文档理解方面优势明显。
  2. 长视频理解:可理解20分钟以上长视频,应用于问答、对话、内容创作。
  3. 视觉智能体:集成到手机、机器人等设备,根据视觉和指令自动操作。
  4. 多语言支持:支持中英多语种,包括欧洲语言、日韩语、阿拉伯语、越南语等。

二、 模型性能

  • 72B 模型在大部分指标上达到最优,超越 GPT-4o 和 Claude3.5-Sonnet,刷新开源多模态模型最佳表现。
  • 7B 模型在文档理解和多语言文字图像理解方面处于 SOTA 水平。
  • 2B 模型支持移动端应用,在视频文档和通用问答方面表现优异。

三、 模型能力案例

  1. 细节识别理解:识别植物、地标、手写文字、多语言,例如:

    User: 转录图中内容,并识别图中每段内容的语言。(图片)
    Qwen2-VL: 1. 汉语,也称为“华语”。(...省略) 语言:中文
             2. 日本語は地方ごとに多様な方言があり、(...省略) 语言:日语
             (...省略)
    
  2. 视觉推理:解决数学、编程、信息提取等现实问题,例如:

    User: Solve the algorithmic problem in the web page. (网页截图)
    Qwen2-VL: To solve the “Snake in Matrix” problem, we need to implement a function (...省略,并给出Python代码)
    
  3. 视频理解与实时聊天:总结视频要点、回答问题、连贯对话,例如:

    User: 视频中的人在做什么? (视频)
    Qwen2-VL: 视频中的人正在使用吸尘器清理地板。
    User: 如果要进一步清洁地面的话,接下来该怎么做?
    Qwen2-VL: 如果要进一步清洁地面,可以使用拖把或湿布擦拭地面,以去除吸尘器无法清除的污渍和灰尘。
    (...省略,后续对话)
    
  4. Visual Agent 能力:函数调用和视觉交互,例如:

    # 使用API调用Qwen2-VL-72B识别图片
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值