- 实验目的及要求:
- 学会以层次聚类、K-means聚类模型为代表的聚类分析模型的建模方法;
- 学会借助R软件进行基本的数据建模分析。
- 实验仪器:
Windows10系统,R Studio软件等。
- 实验原理:
聚类分析是研究如何对事物进行分类的一种多元统计方法,将几种不同的事物依据属性对其进行辨认,将相似的事物聚成一类,使得同一类事物有高度的相似性。其中常用的聚类方法有层次聚类以及K-means聚类。
1、层次聚类;
(1)初始化:每个样本归为一类,并计算每个类之间的距离
(2)寻找距离最近的两个类,合并为一个类
(3)重新计算合并后的类和其他类之间的距离
(4)重复2和3,直至所有样本都划分到某一类
2、K-means聚类:
(1) 选择K个中心点(随机选择K行);
(2) 把每个数据点分配到离它最近的中心点;
(3) 重新计算每类中的点到该类中心点距离的平均值(也就说,得到长度为p的均值向量,,这里的p是变量的个数);
(4) 分配每个数据到它最近的中心点;
(5) 重复步骤(3)和步骤(4)直到所有的观测值不再被分配或是达到最大的迭代次数(R把10次作为默认迭代次数)。
- 实验方法
聚类分析的应用十分广泛,在商业中被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。