基于KD树的K近邻算法(KNN)算法

最新推荐文章于 2025-06-21 13:04:22 发布

原创

最新推荐文章于 2025-06-21 13:04:22 发布 · 3.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习

KNN算法是一种基于实例的学习，通过找到训练集中与新样本最接近的k个邻居来预测其类别。本文介绍了KNN的三要素：距离度量（如欧式距离）、k值选择及其影响、分类决策规则。KNN实现中通常面临计算复杂度高的问题，而kd树作为一种数据结构，能有效加速最近邻搜索，降低时间复杂度至O(logN)。文章详细讲解了kd树的构建、搜索最近邻和预测过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

K近邻算法(KNN)算法，是一种基本的分类与回归算法，本文只讨论解决分类问题的KNN算法。

KNN 简介

思想：给定一个训练数据集，对于新输入的样本，在训练集中找到与该样本最邻近的k个已知样本，这k个已知样本的多数属于某个类别，那么新输入的样本就属于这个类别。

如下图所示，假定使用欧氏距离作为度量方式，采样投票法决定类别，并且？表示待预测的样本，当ｋ取１时，则变成了最近邻算法，对应的类别为★；当ｋ取７时，类别为▲；可见k的取值对分类效果有比较大的影响。在实际应用中，k的取值一般不超过20。

在这里插入图片描述

该算法的优点是：

精度高
对异常值不敏感
无数据输入假定

缺点是：

计算复杂度高
空间复杂度高

KNN 三要素

KNN算法不具有显式的训练过程。距离度量(如欧氏距离)、k值以及分类决策规则(如投票表决)是KNN算法的三要素。在给定训练集合于三要素后，对于任何新输入的样本，它所属的类别是唯一确定的。下面对这三个要素展开讨论。

距离度量

在n维的特征空间中，距离反映的是两个点的相似程度。KNN 算法常用的距离度量为欧式距离，但也可以采用其他距离，比如更一般的 $L_{p}$ 距离，其中p为正整数：
$L_p(x_i, x_j)=\left(\sum_{l=1}^{n}{\left|x_{i}^{(l)}-x_{j}^{(l)}\right|^p}\right)^{\frac{1}{p}}$
当p=1时，即为曼哈顿距离，也叫出租车距离，用以标明两个点在标准坐标系上的绝对轴距总和，如下图中的红色线条所示，蓝色和黄色为等价曼哈顿距离。