[240902] Jina AI 发布多语言语义检索模型 Jina ColBERT v2 | 英特尔和 IBM 在云中提供企业 AI

x-cmd

于 2024-09-02 10:04:38 发布

阅读量1k

点赞数 23

CC 4.0 BY-SA版权

分类专栏： daily blog 文章标签： jina 人工智能 flask 英特尔 IBM ai 企业服务

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/edwinjhlee/article/details/141812076

目录

Jina AI 发布多语言语义检索模型 Jina ColBERT v2

近日，Jina AI 发布了全新的多语言语义检索模型 Jina ColBERT v2 (jina-colbert-v2)。该模型基于 ColBERT 架构，在性能和功能上都有显著提升，为信息检索和 AI 应用带来了更强大的支持。

Jina ColBERT v2 的亮点

卓越的检索性能: 相比于 ColBERT-v2 和 jina-colbert-v1-en，jina-colbert-v2 的检索性能分别提升了 6.5% 和 5.4%。
多语言支持: 支持 89 种语言，涵盖全球主要语言，并在阿拉伯语、中文、英语、法语、德语、日语、俄语和西班牙语等主要语言以及编程语言方面进行了专门的训练，能够实现跨语言检索。
用户可控的输出嵌入维度: 通过 Matryoshka 表征学习技术，用户可以灵活选择 128、96 或 64 维的输出向量，在效率和精度之间取得平衡。

多语言支持

Jina ColBERT v2 的训练语料库包含 89 种语言，并对包括中文在内的多种主要语言进行了额外的训练。训练过程中还使用了对齐的双语文本语料库，以解锁跨语言潜力，允许不同语言的查询和文档在检索任务中进行匹配。

经测试，Jina ColBERT v2 是唯一一款能够生成紧凑嵌入的多语言 ColBERT 类模型，在所有 MIRACL 基准测试语言中均优于基于 BM25 的检索。

Matryoshka 表征学习

Matryoshka 表征学习是一种训练模型以支持不同输出向量大小的技术，同时最大限度地减少精度损失。Jina ColBERT v2 支持 128、96 和 64 维的输出向量，用户可以根据需求选择合适的维度，在保证检索性能的同时节省存储空间和计算成本。

Jina ColBERT v2 使用方法

Jina ColBERT v2 可以通过 Jina Search Foundation API、AWS marketplace、Azure 以及 Hugging Face (仅限非商业用途) 获取。

通过 Jina Search Foundation API 进行嵌入

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。