
## 机器学习-分类和聚类、分类和回归、逻辑回归和KNN
分类和聚类的概念:
**
1、分类:使用已知的数据集(训练集)得到相应的模型,通过这个模型可以划分未知数据。分类涉及到的数据集通常是带有标签的数据集,分类是有监督学习。一般分为两步,训练数据得到模型,通过模型划分未知数据。 2.聚类:直接使用聚类算法将未知数据分为两类或者多类。聚类算法可以分析数据之间的联系,一般分为一步,是无监督学习。 常见的分类算法:KNN、逻辑回归、支持向量机、朴素贝叶斯、决策树、随机森林、 常见的聚类算法:K均值(K-means)、FCM(模糊C均值聚类)、均值漂移聚类、DBSCAN、SPEAK、Mediods、Canopy
*
逻辑回归:
* 逻辑回归是一种分类算法,而不是回归算法。分类和回归的区别如下:分类的输出数据类型为离散型数据,回归输出为连续性数据;分类的目的是寻找决策边界,回归的目的是找到最优拟合;分类的评价方法一般为精度、混淆矩阵,回归的评价方法为sum of square errors(SSE)或拟合优度;分类是一种定性预测,回归是一种定量预测。 判断分类和回归的主要方法是观察输出类型为离散型还是连续数据,离散型是分类问题,连续数据是回归问题。 现在回到逻辑回归,逻辑回归首先拟合数据,最开始的想法是对数据进行线性拟合,但是线性拟合很容易受到离群值(异常值)的影响,因此选择sigmod函数作为逻辑回归的回归函数,sigmod函数的表达式和图像如下: