还在为多语言的文本向量发愁?担心模型太大跑不动?
Jina Embeddings V3 来了,这款 5.7 亿参数的顶级文本向量模型,在多语言和长文本检索任务上达到当前最佳水平 SOTA。内置多种 LoRA 适配器,可以根据你的需求,针对 检索、聚类、分类和匹配 的不同场景进行定制,获得更精准的向量化效果。
多语言支持: 支持 89 种语言,全面超越 multilingual-e5-large-instruct
长文本处理: 支持 8192 token 的输入长度,在 LongEmbed 基准测试中表现出色
任务定制更精准: 内置多种 LoRA 适配器,针对检索、聚类、分类和匹配等任务,生成定制化向量,效果更精准。
输出维度可定制: 默认输出维度为 1024,但你完全可以根据需要把它缩减到 32,性能几乎不受影响,这都归功于俄罗斯套娃表示学习技术的加持。
模型已开源,即刻体验:
开源模型链接: https://huggingface.co/jinaai/jina-embeddings-v3
模型 API 链接: https://jina.ai/?sui=apikey
模型论文链接: https://arxiv.org/abs/2409.10173
模型表现数据
下面就用数据来直观地感受 jina-embeddings-v3 的强大实力。
英文任务:稳居第一梯队
jina-embeddings-v3 在 MTEB 的所有英文任务中都稳居第一梯队,性能超越 OpenAI 和 Cohere 的最新闭源模型。 每个任务的详细评估结果,可以看看我们 20 页的论文:https://arxiv.org/abs/2409.10173

多语言任务表现:全面超越竞品
jina-embeddings-v3 在 MTEB 各种多语言和跨语言任务中也展现出强大的实力,在各项测评均超越 multilingual-e5-large-instruct 模型。

长文档检索任务表现:高效处理长文本
在 LongEmbed 基准测试的六个长文档检索任务中,jina-embeddings-v3 表现抢眼,大幅领先其他模型。

这也说明,相比 baai-bge-m3 使用的固定位置编码技术,和 jina-embeddings-v2 使用的 ALiBi 方法,我们采用的 RoPE 位