KNN算法:K-近邻算法(K-Nearest Neighbors Algorithm)
KNN(K-Nearest Neighbors)是一种简单且广泛使用的监督学习算法,常用于分类和回归问题。它基于“相似样本具有相似输出”的思想,通过计算样本点之间的距离来进行预测。
算法的基本思想
KNN算法的核心是:
- 定义距离:计算待预测样本与训练样本之间的距离。
- 选择邻居:选择距离最近的 K 个样本。
- 输出结果:
- 分类问题:选择 K 个邻居中出现次数最多的类别作为预测结果。
- 回归问题:返回 K 个邻居的平均值或加权平均值作为预测结果。
KNN算法的步骤
- 数据准备:
- 收集并整理训练数据集。
- 距离计算:
- 对于待预测样本,计算其与训练集中每个样本的距离。
- 常见距离公式:
- 欧几里得距离:
- 欧几里得距离: