[240902] Jina AI 发布多语言语义检索模型 Jina ColBERT v2 | 英特尔和 IBM 在云中提供企业 AI

Jina AI 发布多语言语义检索模型 Jina ColBERT v2

近日,Jina AI 发布了全新的多语言语义检索模型 Jina ColBERT v2 (jina-colbert-v2)。该模型基于 ColBERT 架构,在性能和功能上都有显著提升,为信息检索和 AI 应用带来了更强大的支持。

Jina ColBERT v2 的亮点

  • 卓越的检索性能: 相比于 ColBERT-v2 和 jina-colbert-v1-en,jina-colbert-v2 的检索性能分别提升了 6.5% 和 5.4%。
  • 多语言支持: 支持 89 种语言,涵盖全球主要语言,并在阿拉伯语、中文、英语、法语、德语、日语、俄语和西班牙语等主要语言以及编程语言方面进行了专门的训练,能够实现跨语言检索。
  • 用户可控的输出嵌入维度: 通过 Matryoshka 表征学习技术,用户可以灵活选择 128、96 或 64 维的输出向量,在效率和精度之间取得平衡。

多语言支持

Jina ColBERT v2 的训练语料库包含 89 种语言,并对包括中文在内的多种主要语言进行了额外的训练。训练过程中还使用了对齐的双语文本语料库,以解锁跨语言潜力,允许不同语言的查询和文档在检索任务中进行匹配。

经测试,Jina ColBERT v2 是唯一一款能够生成紧凑嵌入的多语言 ColBERT 类模型,在所有 MIRACL 基准测试语言中均优于基于 BM25 的检索。

Matryoshka 表征学习

Matryoshka 表征学习是一种训练模型以支持不同输出向量大小的技术,同时最大限度地减少精度损失。Jina ColBERT v2 支持 128、96 和 64 维的输出向量,用户可以根据需求选择合适的维度,在保证检索性能的同时节省存储空间和计算成本。

Jina ColBERT v2 使用方法

Jina ColBERT v2 可以通过 Jina Search Foundation API、AWS marketplace、Azure 以及 Hugging Face (仅限非商业用途) 获取。

通过 Jina Search Foundation API 进行嵌入
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值