24亿参数!全球首个多模态重排模型Jina-Reranker-M0开源:支持29种语言+4K图像处理

2025年4月,Jina AI正式开源jina-reranker-m0​,这是全球首个支持文本+图像联合重排的多语言模型。基于24亿参数的Qwen2-VL-2B架构,它不仅突破了传统纯文本检索的局限,还支持29种语言跨模态交互和4K分辨率图像处理,标志着重排技术正式迈入多模态时代。

AI快站下载

https://aifasthub.com/jinaai/jina-reranker-m0

痛点:当 RAG 遇到图文混排

检索增强生成(RAG)极大地提升了 LLM 的能力,但其效果高度依赖于检索阶段(Retriever)和重排阶段(Reranker)的质量。传统的 Reranker 模型,即使性能再好,大多也只能处理纯文本信息。

想象一下,当你的知识库里充满了包含图表、截图、照片、复杂布局的文档时(例如产品手册、研究报告、网页存档),仅靠文本匹配进行重排显然是不够的。用户的一个查询可能与文档中的一张图片或图表高度相关,但传统 Reranker 却可能因为文本相似度不高而将其排在后面。这就是多模态信息处理的挑战。

Jina Reranker M0:应运而生的多模态“精炼师”

Jina Reranker M0 正是为了解决这一挑战而生。它不仅仅是对 Jina AI 之前备受好评的 Reranker V1/V2 的升级,更是一次架构和能力的跃迁。

核心特性 1:“全球首个”多模态重排能力

M0 最核心的突破在于其原生多模态处理能力。这意味着它可以接受多种输入组合,并根据语义相关性进行精准排序:

  • 文本查询 vs 图文混合文档: 用户提出文本问题,M0 能在包含文本、图像、图表的文档中找到最相关的部分。
  • 图像查询 vs 图文混合文档: 用户上传一张图片作为查询,M0 能找到与之最相似或相关的文本、图像或混合文档。
  • 混合模态排序: 它能有效克服“模态鸿沟”,将文本结果和图像结果放在同一个语义空间下进行公平比较和排序。
核心特性 2:24亿参数与先进的 VLM 架构

M0 的强大能力源于其巨大的模型规模和先进的架构设计:

  • 24 亿参数: 相比 V2 的 2.78 亿参数,M0 的参数量增加了近 9 倍,带来了更强的模型容量和学习能力。
  • 基于 Qwen2-VL-2B-Instruct: 它构建在强大的开源视觉语言模型(VLM)Qwen2-VL 之上,继承了其出色的图文理解能力。
  • Decoder-only 架构 + 优化: 不同于 V1/V2 的 Cross-Encoder,M0 采用了 Decoder-only 架构。Jina AI 复用了 Qwen2-VL 的视觉编码器和投影层,并使用 LoRA 技术对 LLM 部分进行微调,专门训练了一个 MLP 头用于输出相关性分数。这使其成为一个为排序任务深度优化的判别式模型。
核心特性 3:10K 超长上下文窗口

处理复杂文档需要更长的上下文。M0 将输入序列长度扩展到了惊人的 10,240 个 token,远超 V1/V2 的 8K 和许多其他模型。这意味着:

  • 可以处理更长的报告、论文或网页内容而无需过度截断。
  • 更好地理解文档内部的复杂关联和长距离依赖。
核心特性 4:广泛的多语言支持 (29+ 种语言)

M0 支持超过 29 种语言,包括英语、中文、德语、西班牙语、法语、日语等等。这使得它能够轻松应对跨语言检索和排序任务,非常适合需要服务全球用户的应用。

核心特性 5:强大的 4K 图像处理能力

M0 不仅能“看”图,还能看“高清大图”。它支持处理高达 4K 分辨率的图像,并能处理从 56x56 像素的小图。这意味着无论是文档中的细节图表、高分辨率照片还是屏幕截图,M0 都能有效提取视觉信息进行相关性判断。模型内部使用 ViT 将图像块压缩成视觉 token 输入给 LLM。

架构解析:从交叉编码到视觉语言模型

对比前代jina-reranker-v2的交叉编码架构,M0版本实现三大革新:

模型通过LoRA微调保留预训练知识,新增的视觉投影器将图像特征映射到文本空间,实现图文联合编码

性能卓越:SOTA 级的多模态与文本表现

Jina Reranker M0 不仅功能强大,性能也十分出色。根据 Jina AI 公布的数据和相关基准测试:

  • 视觉/多模态检索: 在 ViDoRe(视觉文档重排)、MBEIR(多基准图文检索)、Winoground(视觉常识推理)等基准上表现出 SOTA 或极具竞争力的性能。例如,ViDoRe NDCG@5 达到 91.02,能精准处理包含图表、表格、截图等的视觉文档。
  • 文本检索: 即使在纯文本任务上,M0 也展现了优于前代 V2 的性能,尤其在多语言长文档 (MLDR NDCG@10: 59.83) 和代码搜索 (CoIR NDCG@10: 63.55) 方面提升显著。在经典的 BEIR 基准测试中,其 NDCG@10 达到 58.95,优于 bge-reranker-v2-m3 (56.51)。

应用场景:释放多模态数据的价值

Jina Reranker M0 的应用潜力巨大:

  • 下一代 RAG 系统: 显著提升处理包含图表、截图的知识库(如内部文档、研究论文)的 RAG 效果。
  • 视觉感知搜索引擎: 让搜索引擎能够理解图片内容,实现更精准的图文混合搜索。
  • 电商平台: 根据用户查询(文本或图片)对包含图片和描述的商品进行更智能的排序。
  • 跨语言信息检索: 打破语言障碍,在多语言内容库中查找信息。
  • 代码库智能搜索: 结合代码片段和相关图示/文档进行排序。

总结

Jina Reranker M0 的发布,无疑是多模态 AI 领域的一个里程碑。凭借其 24 亿参数的庞大规模、基于 Qwen2-VL 的先进架构、10K 超长上下文、多语言和 4K 图像处理能力,它为解决图文混合信息的精准排序问题提供了前所未有的强大工具。

AI快站下载

https://aifasthub.com/jinaai/jina-reranker-m0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值