目录
Jina AI 发布多语言语义检索模型 Jina ColBERT v2
近日,Jina AI 发布了全新的多语言语义检索模型 Jina ColBERT v2 (jina-colbert-v2)。该模型基于 ColBERT 架构,在性能和功能上都有显著提升,为信息检索和 AI 应用带来了更强大的支持。
Jina ColBERT v2 的亮点
- 卓越的检索性能: 相比于 ColBERT-v2 和 jina-colbert-v1-en,jina-colbert-v2 的检索性能分别提升了 6.5% 和 5.4%。
- 多语言支持: 支持 89 种语言,涵盖全球主要语言,并在阿拉伯语、中文、英语、法语、德语、日语、俄语和西班牙语等主要语言以及编程语言方面进行了专门的训练,能够实现跨语言检索。
- 用户可控的输出嵌入维度: 通过 Matryoshka 表征学习技术,用户可以灵活选择 128、96 或 64 维的输出向量,在效率和精度之间取得平衡。
多语言支持
Jina ColBERT v2 的训练语料库包含 89 种语言,并对包括中文在内的多种主要语言进行了额外的训练。训练过程中还使用了对齐的双语文本语料库,以解锁跨语言潜力,允许不同语言的查询和文档在检索任务中进行匹配。
经测试,Jina ColBERT v2 是唯一一款能够生成紧凑嵌入的多语言 ColBERT 类模型,在所有 MIRACL 基准测试语言中均优于基于 BM25 的检索。
Matryoshka 表征学习
Matryoshka 表征学习是一种训练模型以支持不同输出向量大小的技术,同时最大限度地减少精度损失。Jina ColBERT v2 支持 128、96 和 64 维的输出向量,用户可以根据需求选择合适的维度,在保证检索性能的同时节省存储空间和计算成本。
Jina ColBERT v2 使用方法
Jina ColBERT v2 可以通过 Jina Search Foundation API、AWS marketplace、Azure 以及 Hugging Face (仅限非商业用途) 获取。