K近邻算法与数据挖掘：从KD树到SIFT+BBF - CSDN文库

PDF文件

264KB | 更新于2024-08-27 | 146 浏览量 | 举报收藏

立即下载

"从K近邻算法、距离度量谈到KD树、SIFT+BBF算法" K近邻算法（K-Nearest Neighbors，KNN）是一种基础且重要的监督学习算法，广泛应用于分类和回归问题。它基于实例的学习，通过在训练数据集中找到新样本最近的K个邻居来决定新样本的类别。KNN算法的核心是计算距离，常见的距离度量包括欧氏距离、曼哈顿距离、切比雪夫距离以及余弦相似度等。选择合适的距离度量对于KNN的效果至关重要。 KNN算法的工作流程大致如下： 1. 计算新样本与训练集中每个样本的距离。 2. 按照距离从小到大排序，选取距离最小的K个样本。 3. 根据这K个样本的类别，采用多数投票原则决定新样本的类别。如果是分类问题，类别出现次数最多的作为新样本的预测类别；如果是回归问题，取K个邻居的属性值的平均值作为预测结果。 KNN算法的优点包括简单直观、无需模型训练，以及能够处理多分类问题。然而，它也有一些显著的缺点： - 计算复杂性高：随着样本量的增加，查找K个最近邻的时间复杂度会显著提升，这对于大数据集来说是一个挑战。 - 对异常值敏感：一个离群点可能会影响到K个最近邻的判断，从而影响分类结果。 - 需要存储所有训练样本，内存需求较大。 - K的选择直接影响到结果，选取合适的K值需要经验和验证。为了解决KNN算法在大规模数据集上的效率问题，引入了数据结构KD树（K-Dimensional Tree）。KD树是一种用于高维空间数据的二叉树结构，通过分割空间的方式，能快速定位到最近的邻居，显著减少了距离计算的数量，提高了搜索效率。 SIFT（Scale-Invariant Feature Transform，尺度不变特征变换）是一种图像处理中的局部特征检测算法，它能识别图像在不同尺度和旋转下的关键点。SIFT特征具有尺度不变性和旋转不变性，适用于图像匹配和识别。在KNN算法中，SIFT可以用于图像分类，通过提取图像的SIFT特征并构建特征向量，然后利用KNN算法进行分类。 BBF（Best-Bin-First）是一种在特征匹配中常用的加速策略，常用于哈希表中。在SIFT特征匹配时，BBF首先查找与目标特征最相似的哈希桶，然后在该桶内寻找最近邻，这样可以减少搜索的范围，提高匹配速度。总结来说，K近邻算法是一种基础的机器学习方法，虽然简单但实用，适用于小规模数据集。当面对大规模数据或需要高效检索时，可以结合KD树优化查询效率，而SIFT+BBF则在图像识别领域提供了一种高效的特征匹配方案。这些技术都是数据挖掘和机器学习领域的基石，对于理解更复杂的算法和技术有着重要作用。

从从K近邻算法、距离度量谈到近邻算法、距离度量谈到KD树、树、SIFT+BBF算法算法

前言

前两日，在微博上说：“到今天为止，我至少亏欠了3篇文章待写：1、KD树；2、神经网络；3、编程艺术第28章。你看

到，blog内的文章与你于别处所见的任何都不同。于是，等啊等，等一台电脑，只好等待..”。得益于田，借了我一台电脑（借

他电脑的时候，我连表示感谢，他说“能找到工作全靠你的博客，这点儿小忙还说，不地道”，有的时候，稍许感受到受人信任

也是一种压力，愿我不辜负大家对我的信任），于是今天开始Top 10 Algorithms in Data Mining系列第三篇文章，即本文「从

K近邻算法谈到KD树、SIFT+BBF算法」的创作。

一个人坚持自己的兴趣是比较难的，因为太多的人太容易为外界所动了，而尤其当你无法从中得到多少实际性的回报时，所

幸，我能一直坚持下来。毕达哥拉斯学派有句名言：“万物皆数”，最近读完「微积分概念发展史」后也感受到了这一点。同

时，从算法到数据挖掘、机器学习，再到数学，其中每一个领域任何一个细节都值得探索终生，或许，这就是“终生为学”的意

思。

同时，你将看到，K近邻算法同本系列的前两篇文章所讲的决策树分类贝叶斯分类，及支持向量机SVM一样，也是用于解决分

类问题的算法，

而本数据挖掘十大算法系列也会按照分类，聚类，关联分析，预测回归等问题依次展开阐述。

OK，行文仓促，本文若有任何漏洞，问题或者错误，欢迎朋友们随时不吝指正，各位的批评也是我继续写下去的动力之一。

感谢。

第一部分、K近邻算法

1.1、什么是K近邻算法

何谓K近邻算法，即K-Nearest Neighbor algorithm，简称KNN算法，单从名字来猜想，可以简单粗暴的认为是：K个最近的邻

居，当K=1时，算法便成了最近邻算法，即寻找最近的那个邻居。为何要找邻居？打个比方来说，假设你来到一个陌生的村

庄，现在你要找到与你有着相似特征的人群融入他们，所谓入伙。

用官方的话来说，所谓K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个

实例（也就是上面所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。根据这个说法，咱们

来看下引自维基百科上的一幅图：

如上图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数

据则是待分类的数据。也就是说，现在，我们不知道中间那个绿色的数据是从属于哪一类（蓝色小正方形or红色小三角形），

下面，我们就要解决这个问题：给这个绿色的圆分类。

我们常说，物以类聚，人以群分，判别一个人是一个什么样品质特征的人，常常可以从他/她身边的朋友入手，所谓观其友，

而识其人。我们不是要判别上图中那个绿色的圆是属于哪一类数据么，好说，从它的邻居下手。但一次性看多少个邻居呢？从

上图中，你还能看到：

如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色

下载后可阅读完整内容，剩余6页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

left

成为会员后, 你将解锁

right

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

weixin_38746574

粉丝: 10

最新资源