Jina Embeddings V3:站在多语言向量模型最前沿

68f3acadc9e5e43bd6625e2f10647287.png

还在为多语言的文本向量发愁?担心模型太大跑不动?

Jina Embeddings V3 来了,这款 5.7 亿参数的顶级文本向量模型,在多语言和长文本检索任务上达到当前最佳水平 SOTA。内置多种 LoRA 适配器,可以根据你的需求,针对 检索、聚类、分类和匹配 的不同场景进行定制,获得更精准的向量化效果。

  • 多语言支持: 支持 89 种语言,全面超越 multilingual-e5-large-instruct

  • 长文本处理: 支持 8192 token 的输入长度,在 LongEmbed 基准测试中表现出色

  • 任务定制更精准: 内置多种 LoRA 适配器,针对检索、聚类、分类和匹配等任务,生成定制化向量,效果更精准。

  • 输出维度可定制: 默认输出维度为 1024,但你完全可以根据需要把它缩减到 32,性能几乎不受影响,这都归功于俄罗斯套娃表示学习技术的加持。

模型已开源,即刻体验:

  • 开源模型链接: https://huggingface.co/jinaai/jina-embeddings-v3

  • 模型 API 链接: https://jina.ai/?sui=apikey

  • 模型论文链接: https://arxiv.org/abs/2409.10173

模型表现数据

下面就用数据来直观地感受 jina-embeddings-v3 的强大实力。

英文任务:稳居第一梯队

jina-embeddings-v3 在 MTEB 的所有英文任务中都稳居第一梯队,性能超越 OpenAI 和 Cohere 的最新闭源模型。 每个任务的详细评估结果,可以看看我们 20 页的论文:https://arxiv.org/abs/2409.10173

outside_default.png
多语言任务表现:全面超越竞品

jina-embeddings-v3 在 MTEB 各种多语言和跨语言任务中也展现出强大的实力,在各项测评均超越 multilingual-e5-large-instruct 模型。

outside_default.png
长文档检索任务表现:高效处理长文本

在 LongEmbed 基准测试的六个长文档检索任务中,jina-embeddings-v3 表现抢眼,大幅领先其他模型。

outside_default.png

这也说明,相比 baai-bge-m3 使用的固定位置编码技术,和 jina-embeddings-v2 使用的 ALiBi 方法,我们采用的 RoPE 位

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值