判别分析、聚类分析与多维尺度分析详解
立即解锁
发布时间: 2025-09-07 02:00:05 阅读量: 15 订阅数: 36 AIGC 


数据科学理论与实践
# 判别分析、聚类分析与多维尺度分析详解
## 1. 判别分析
### 1.1 地震与爆炸事件判别
通过切尔诺夫(Chernoff)和库尔贝克 - 莱布勒(Kullback - Leibler)差异对地震和爆炸事件进行象限分类。若未知事件所在象限的分类规则是该象限分类为爆炸,则可判定未知事件为爆炸。
### 1.2 金融时间序列应用
选取 2008 年 9 月 15 日雷曼兄弟倒闭和 2010 年 5 月 6 日闪电崩盘事件的每分钟采样时间序列数据,每个时间序列包含 1024 个数据点。涉及的公司有埃克森美孚公司(XOM)、沃尔玛零售公司(WMT)、威瑞森通信公司(VZ)、联合技术公司(UTX)和麦当劳公司(MCD)。另外选取了 2009 年花旗集团和 2011 年IAMGOLD 公司(IAG)的股票市场数据,以确定雷曼兄弟倒闭是否对它们有影响,以及闪电崩盘是否对 2011 年的 IAG 股票有影响。
| 股票 | K - L 得分 | 切尔诺夫得分 | 股票 | K - L 得分 | 切尔诺夫得分 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| XOM - 雷曼 | -0.425 | -0.022 | XOM - 闪电 | 0.085 | 0.017 |
| WMT - 雷曼 | -0.159 | -0.009 | WMT - 闪电 | 0.068 | 0.016 |
| VZ - 雷曼 | -0.156 | -0.009 | VZ - 闪电 | 0.102 | 0.018 |
| UTX - 雷曼 | -0.436 | -0.022 | UTX - 闪电 | 0.163 | 0.034 |
| MCD - 雷曼 | -0.101 | -0.006 | MCD - 闪电 | 0.124 | 0.025 |
使用 K - L 和切尔诺夫距离技术,基于频域对雷曼兄弟倒闭和闪电崩盘事件进行分析。通过公式(12.13)利用谱矩阵的对角元素获得 K - L 散度,优化切尔诺夫系数 𝛼(0.58) 以估计公式(12.14)中切尔诺夫差异 \(B_{\alpha}(\hat{f}_1, \hat{f}_2)\) 的最大值。2009 年花旗集团股票市场的 K - L 和切尔诺夫距离分别为 -0.106 和 -0.006,2011 年 IAG 股票市场的 K - L 和切尔诺夫距离分别为 -1.283 和 -0.033。从表中可知,雷曼兄弟倒闭的 K - L 和切尔诺夫距离为负,闪电崩盘的为正,从而正确区分了这两个事件。
| 股票 | K - L 得分 | 切尔诺夫得分 |
| ---- | ---- | ---- |
| CITI (2009) | -0.106 | -0.006 |
| IAG (2011) | -1.283 | -0.033 |
通过切尔诺夫差异和 K - L 差异对雷曼兄弟倒闭和闪电崩盘事件进行象限分类,第一象限的点分类为闪电崩盘事件,第三象限的点分类为雷曼兄弟倒闭事件,由此得出雷曼兄弟倒闭对这两个事件有影响。
## 2. 聚类分析
### 2.1 聚类概述
聚类是将数据集分组的技术,使同一组内的数据具有比其他组更相似的属性。例如:
- 帮助企业在客户群中发现不同的群体,进而制定有针对性的营销计划。
- 识别平均索赔成本较高的人寿保险保单持有人类别。
- 对国家或大陆断层沿线的地震震中进行分组等。
一个好的聚类方法应产生高质量的聚类,具有高类内相似度和低类间相似度。聚类结果的质量取决于所使用的相似度度量方法及其实现。相似度通常用距离函数 \(d(i, j)\) 表示,对于不同类型的变量(区间尺度、布尔型、分类型和有序型),距离函数的定义通常差异很大。
### 2.2 聚类方法
聚类方法主要有以下几种:
- 划分算法:构建各种划分,然后根据某种准则对其进行评估。
- 层次算法:使用某种准则对数据集(或对象)进行层次分解。
- 基于密度:基于连通性和密度函数。
- 基于网格:基于多级粒度结构。
- 基于模型:为每个聚类制定一个模型,目标是找到该模型之间的最佳拟合。
这里主要关注划分算法。
### 2.3 划分算法
#### 2.3.1 k - 均值算法
k - 均值算法是一种迭代算法,将数据集划分为 k 个预定义的、唯一的、不重叠的聚类,每个数据点仅属于一个组。其目标是使簇内数据点尽可能相似,同时使簇之间尽可能不同。具体步骤如下:
1. **步骤 1**:将数据集划分为 k 个初始聚类。
2. **步骤 2**:遍历数据集中的项目,将每个项目分配给其质心最近的聚类。通常使用欧几里得距离计算距离,可使用标准化或非标准化的观测值。重新计算接收新项的聚类和失去该项的聚类的质心。
3. **步骤 3**:重复步骤 2,直到不再发生重新分配。
在实践中,也可以指定 k 个初始质心,然后进入步骤 2。最终项目到聚类的分配取决于初始划分或初始种子点的选择。经验表明,大多数主要的分配变化发生在第一次重新分配步骤。
#### 2.3.2 k - 中心点算法
k - 中心点(PAM)算法与 k - 均值算法类似,但 k - 中心点选择数据点作为中心(中心点),并且可以使用任意距离,而 k - 均值中聚类的中心不一定是输入数据点(而是聚类中各点的平均值)。其算法步骤如下:
1. **步骤 1**:初始化:从 n 个数据点中随机选择 k 个作为中心点。
2. **步骤 2**:分配步骤:将每个数据点关联到最近的中心点。
3. **步骤 3**:更新步骤:对于每个中心点 m 和与 m 关联的每个数据点 o,交换 m 和 o,并计算配置的总成本(即 o 与所有与 m 关联的数
0
0
复制全文
相关推荐









