
相似搜索
文章平均质量分 96
kanhao100
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
向量相似性搜索 Part 1 —— KNN 和 倒排文件索引 IVF Inverted File Index
在数据科学中,相似性搜索经常出现在NLP领域、搜索引擎或推荐系统中,需要检索查询的最相关文档或项目。为了加速搜索性能,在数据集嵌入之上构建了一个特殊的数据结构。这种数据结构称为索引。为了加速搜索性能,在数据集嵌入之上构建了一个特殊的数据结构。这种数据结构称为索引。在这个领域有很多研究,许多类型的索引已经发展出来。在选择一个索引应用于某个任务之前,有必要了解它在背后是如何操作的,因为每个索引都有不同的目的和优缺点。在本文中,我们将研究最朴素的方法——kNN。基于kNN,我们将切换到倒排索引——用于更可扩展转载 2025-03-15 10:48:28 · 284 阅读 · 0 评论 -
向量相似性搜索 Part 2 —— PQ量化 Product Quantization 乘积量化
乘积量化是将每个数据集向量转换为短的存储器有效表示(称为PQ代码)的过程。而不是完全保留所有向量,它们的短表示被存储。同时,产品量化是一种有损压缩方法,可以导致较低的预测准确性,但在实践中,这种算法非常有效。一般来说,量化是将无限的值映射到离散的值的过程。原创 2025-03-14 10:55:54 · 859 阅读 · 0 评论 -
向量相似性搜索 Part 4 —— HNSW 分层可导航小世界
层级可导航小世界(HNSW)是一种用于近似搜索最近邻居的最先进算法。在其内部,HNSW构建了优化的图形结构,使其与之前讨论的其他方法非常不同。HNSW的主要思想是构建这样一种图形,任何两个顶点之间的路径都可以在少量步骤内遍历。关于著名的六度分隔规则的一个众所周知的类比与这种方法有关:所有人之间都有六个或更少的社交联系。原创 2025-03-14 08:25:41 · 1394 阅读 · 0 评论