K-means聚类算法资源-CSDN下载

共26个文件

html：8个

png：5个

xml：4个

需积分: 5 33 浏览量 2023-03-17 21:08:24 上传评论 1 收藏 55.67MB ZIP 举报

K-means聚类算法是数据挖掘领域中一种广泛应用的无监督学习方法，它主要用于将数据集划分成K个互不重叠的类别。这个算法基于一个简单的核心思想：通过迭代优化，使得每个类别内的数据点尽可能相似，而不同类别间的数据点尽可能不同。下面将详细阐述K-means算法的基本原理、步骤、优缺点以及实际应用。 1. **基本原理**： K-means算法的目标是找到K个中心，使得所有数据点到最近中心的距离平方和最小。这里的“中心”是类别代表，通常称为质心。每个数据点会被分配到与其最近的质心所对应的类别。 2. **算法步骤**： - **初始化**：随机选择K个数据点作为初始质心。 - **分配阶段**：计算每个数据点到所有质心的距离，将每个数据点分配到最近的质心所在的类别。 - **更新阶段**：重新计算每个类别的质心，通常是该类别所有数据点的几何中心（均值）。 - **迭代**：重复分配和更新步骤，直到质心不再改变或达到预设的最大迭代次数。 3. **优缺点**： - **优点**： - 算法简单，易于理解和实现。 - 计算效率高，适合大规模数据集。 - 可以处理任何形状的簇，只要簇的大小和密度差异不是太大。 - **缺点**： - 对初始质心的选择敏感，不同的初始设置可能导致不同的结果。 - 需要预先指定类别数量K，这在实际应用中可能难以确定。 - 对于非凸形状的簇或者大小不一、密度不同的簇，效果不佳。 - 不适用于带有噪声的数据或异常值。 4. **实际应用**： - 市场细分：根据消费者的购买行为、地理位置等信息，将客户分成不同的群体，以便进行针对性的营销策略。 - 图像分割：在图像处理中，可以将像素点分为不同的颜色区域。 - 社交网络分析：识别社区结构，找出具有相似兴趣或关系的用户群。 - 推荐系统：通过对用户行为的聚类，推荐与用户群体喜好相符的产品或服务。 5. **改进与变种**： - **Elkan算法**：利用三角不等式减少计算距离的次数。 - **DBSCAN**：基于密度的聚类算法，自动发现簇的形状和大小。 - **谱聚类**：利用图论中的谱分解来找到簇结构。 K-means聚类算法虽然简单且高效，但在实际应用中需要结合具体问题进行调整和优化。对于复杂的数据分布情况，可能需要考虑使用其他聚类算法或结合多种方法来获得更准确的结果。同时，理解和评估聚类效果也是非常重要的环节，例如通过轮廓系数、Calinski-Harabasz指数等度量标准来评估簇的质量。

资源推荐

资源详情

资源评论

收起资源包目录

本项目使用python实现机器学习K-means聚类算法，对数据进行聚类并绘图。数据使用了boss直聘北京市大数据的数据，K-means的两个特征值选取的是每个岗位的最低薪资和最高薪资初始质心选取了3个，即k=3、.zip （26个子文件）

k-means-master

src

K-means.py 4KB

BossSpider.py 7KB

data

bossHtml6.html 268KB

bossHtml2.html 265KB

bossHtml7.html 268KB

bossHtml4.html 265KB

BossData.xls 74KB

bossHtml8.html 242KB

bossHtml5.html 266KB

bossHtml3.html 267KB

bossHtml1.html 270KB

LICENSE 1KB

res

3.png 16KB

1.png 16KB

2RtteNCBk9.gif 52.07MB

5.png 16KB

4.png 16KB

o43sUC0KFC.gif 3.35MB

2.png 16KB

.idea

vcs.xml 180B

misc.xml 192B

inspectionProfiles

profiles_settings.xml 174B

modules.xml 266B

.gitignore 180B

K-means.iml 284B

README.md 5KB

# k-means算法对大数据薪资情况的聚类分析 ### 简介本项目使用python实现机器学习K-means聚类算法，对数据进行聚类并绘图。数据使用了boss直聘北京市大数据的数据，K-means的两个特征值选取的是每个岗位的最低薪资和最高薪资初始质心选取了3个，即k=3、 ### 原理 K-means算法属于八大经典的机器学习算法中的其中一种，是一种无监督的聚类算法。其中无监督是机器学习领域中一个专业名词，和有监督是相对的，两者最本质的区别就在于研究的样本是否包含标签。比如猫狗分类这个问题中，猫和狗就是标签。对于聚类，其实是和分类相对应的，其中分类就是之有标签的。而聚类则是只没有标签的，我们需要将这些无标签的数据，按照各自的属性将他们会聚成不同的类别，从而将他们区分开。在k-means算法中，存在着质心和簇。在进行算法之前，我们需要人工的指定将数据分为K个簇，并随便选取K个质心。就拿认知实习学习中的例子举例，假如我们又8个数据，分别为a1-a8，我们需要将这八个数据分为三个簇，也就是说k=3。这是我们就需要在a1-a8中随机选取三个数据点作为质心我们将质心记为b11，b12，b13。确定了质心后，我们需要计算a1-a8和三个质心的距离，并将距离最短的归为一类。比如a5到b11距离为2，到b12距离为3，到b13距离为1，那么就将a5和质心b13归为同一个簇。如此一次计算8个数据，并得到三个簇。然后对每个簇中的数据点，计算数据的平均值，作为更新之后的新的质心，记为b21，b22，b23。然后重复以上的步骤，再次计算a1-a8与三个新质心的距离，并将其按最短距离分为三个簇，并再次计算出新的质心。在经过若干次迭代后，三个老质心和三个新质心相同，不在发生改变，那么k-means算法就已经收敛，算法结束。最后得到的三个簇就是通过k-means算法聚类后的数据。学习完K-means算法的理论思路后，我们就可以清晰的发现k-means算法的缺点。其一为在处理数据的时候，我们往往需要人工选取k值，规定出所需要的簇。所以就可能存在，我们在拿到了数据，并不知到该分为几类的情况，就导致了错误的分类得不到我们想要的结果。其二为，k-means算法受初始值和离群点的影响非常大。对于初始值，如果我们选取了a1，a2，a3作为初始质心，那么有可能只迭代一次就完成了收敛，但是如果选取a4，a5，a6作为初始质心，那么可能迭代好多次才完成收敛，所以这个初始值影响了迭代次数，造成了稳定性差点缺点。对于离群点，数据中会存在我们人力无法识别出的离群点，这些离群点往往会影响实验的结果，这也造成了其稳定性差的缺点。对于代码实现来说，以python为例，我们需要针对数据特点，数据初始质心和迭代后的质心，距离的计算函数（使用欧氏距离），创建聚类中心的函数，和实现聚类迭代的函数进行设计。只需要按理论建模设计以上对应的函数，便可以完成整个K-means模型的建立。模型建立后，还应该使用matplotllib包对得到的结果进行绘制，以得出直观的结果。有了模型之后，就需要用到数据采集，我利用了python的爬虫技术，爬取了boss直聘网站中，北京市大数据岗位的招聘信息，约有150多条。每条岗位信息中，存在一个该岗位的最低工资标准和该岗位的最高工资标准。我们将最高工资标准和最低工资便准作为数据的两个特征，以此去应用我们之前搭建的K-means模型。 ### 项目结构 - / - data --- 用于存放爬虫所需要的数据和K-means算法所需要的数据 - res --- 用于存放K-means算法每一次迭代的图像 - src --- 用于存放K-means和爬虫的源代码 ### 源码 ![](https://i.vgy.me/rALmfG.gif) ### 数据集 - [聚类数据集下载](https://gitee.com/broky-dev/k-means/raw/master/data/BossData.xls) - 数据集中采用了最小薪资水平和最大薪资水平两个特征 ![](https://i.vgy.me/7Mqp7S.gif) ### 聚类结果 - 总览 ![](https://i.vgy.me/1lWomA.gif) - 第一次迭代 ![](/res/0.png) - 第二次迭代 ![](/res/1.png) - 第三次迭代 ![](/res/2.png) - 第四次迭代 ![](/res/3.png) - 第五次迭代 ![](/res/4.png) - 第六次迭代 ![](/res/5.png) - 第七次迭代，已收敛 ![](/res/6.png)

评论收藏

内容反馈