判别分析、聚类分析与多维尺度分析详解

立即解锁

发布时间: 2025-09-07 02:00:05 阅读量: 15 订阅数: 36

数据科学理论与实践

# 判别分析、聚类分析与多维尺度分析详解 ## 1. 判别分析 ### 1.1 地震与爆炸事件判别通过切尔诺夫（Chernoff）和库尔贝克 - 莱布勒（Kullback - Leibler）差异对地震和爆炸事件进行象限分类。若未知事件所在象限的分类规则是该象限分类为爆炸，则可判定未知事件为爆炸。 ### 1.2 金融时间序列应用选取 2008 年 9 月 15 日雷曼兄弟倒闭和 2010 年 5 月 6 日闪电崩盘事件的每分钟采样时间序列数据，每个时间序列包含 1024 个数据点。涉及的公司有埃克森美孚公司（XOM）、沃尔玛零售公司（WMT）、威瑞森通信公司（VZ）、联合技术公司（UTX）和麦当劳公司（MCD）。另外选取了 2009 年花旗集团和 2011 年IAMGOLD 公司（IAG）的股票市场数据，以确定雷曼兄弟倒闭是否对它们有影响，以及闪电崩盘是否对 2011 年的 IAG 股票有影响。 | 股票 | K - L 得分 | 切尔诺夫得分 | 股票 | K - L 得分 | 切尔诺夫得分 | | ---- | ---- | ---- | ---- | ---- | ---- | | XOM - 雷曼 | -0.425 | -0.022 | XOM - 闪电 | 0.085 | 0.017 | | WMT - 雷曼 | -0.159 | -0.009 | WMT - 闪电 | 0.068 | 0.016 | | VZ - 雷曼 | -0.156 | -0.009 | VZ - 闪电 | 0.102 | 0.018 | | UTX - 雷曼 | -0.436 | -0.022 | UTX - 闪电 | 0.163 | 0.034 | | MCD - 雷曼 | -0.101 | -0.006 | MCD - 闪电 | 0.124 | 0.025 | 使用 K - L 和切尔诺夫距离技术，基于频域对雷曼兄弟倒闭和闪电崩盘事件进行分析。通过公式（12.13）利用谱矩阵的对角元素获得 K - L 散度，优化切尔诺夫系数 𝛼(0.58) 以估计公式（12.14）中切尔诺夫差异 \(B_{\alpha}(\hat{f}_1, \hat{f}_2)\) 的最大值。2009 年花旗集团股票市场的 K - L 和切尔诺夫距离分别为 -0.106 和 -0.006，2011 年 IAG 股票市场的 K - L 和切尔诺夫距离分别为 -1.283 和 -0.033。从表中可知，雷曼兄弟倒闭的 K - L 和切尔诺夫距离为负，闪电崩盘的为正，从而正确区分了这两个事件。 | 股票 | K - L 得分 | 切尔诺夫得分 | | ---- | ---- | ---- | | CITI (2009) | -0.106 | -0.006 | | IAG (2011) | -1.283 | -0.033 | 通过切尔诺夫差异和 K - L 差异对雷曼兄弟倒闭和闪电崩盘事件进行象限分类，第一象限的点分类为闪电崩盘事件，第三象限的点分类为雷曼兄弟倒闭事件，由此得出雷曼兄弟倒闭对这两个事件有影响。 ## 2. 聚类分析 ### 2.1 聚类概述聚类是将数据集分组的技术，使同一组内的数据具有比其他组更相似的属性。例如： - 帮助企业在客户群中发现不同的群体，进而制定有针对性的营销计划。 - 识别平均索赔成本较高的人寿保险保单持有人类别。 - 对国家或大陆断层沿线的地震震中进行分组等。一个好的聚类方法应产生高质量的聚类，具有高类内相似度和低类间相似度。聚类结果的质量取决于所使用的相似度度量方法及其实现。相似度通常用距离函数 \(d(i, j)\) 表示，对于不同类型的变量（区间尺度、布尔型、分类型和有序型），距离函数的定义通常差异很大。 ### 2.2 聚类方法聚类方法主要有以下几种： - 划分算法：构建各种划分，然后根据某种准则对其进行评估。 - 层次算法：使用某种准则对数据集（或对象）进行层次分解。 - 基于密度：基于连通性和密度函数。 - 基于网格：基于多级粒度结构。 - 基于模型：为每个聚类制定一个模型，目标是找到该模型之间的最佳拟合。这里主要关注划分算法。 ### 2.3 划分算法 #### 2.3.1 k - 均值算法 k - 均值算法是一种迭代算法，将数据集划分为 k 个预定义的、唯一的、不重叠的聚类，每个数据点仅属于一个组。其目标是使簇内数据点尽可能相似，同时使簇之间尽可能不同。具体步骤如下： 1. **步骤 1**：将数据集划分为 k 个初始聚类。 2. **步骤 2**：遍历数据集中的项目，将每个项目分配给其质心最近的聚类。通常使用欧几里得距离计算距离，可使用标准化或非标准化的观测值。重新计算接收新项的聚类和失去该项的聚类的质心。 3. **步骤 3**：重复步骤 2，直到不再发生重新分配。在实践中，也可以指定 k 个初始质心，然后进入步骤 2。最终项目到聚类的分配取决于初始划分或初始种子点的选择。经验表明，大多数主要的分配变化发生在第一次重新分配步骤。 #### 2.3.2 k - 中心点算法 k - 中心点（PAM）算法与 k - 均值算法类似，但 k - 中心点选择数据点作为中心（中心点），并且可以使用任意距离，而 k - 均值中聚类的中心不一定是输入数据点（而是聚类中各点的平均值）。其算法步骤如下： 1. **步骤 1**：初始化：从 n 个数据点中随机选择 k 个作为中心点。 2. **步骤 2**：分配步骤：将每个数据点关联到最近的中心点。 3. **步骤 3**：更新步骤：对于每个中心点 m 和与 m 关联的每个数据点 o，交换 m 和 o，并计算配置的总成本（即 o 与所有与 m 关联的数

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

判别分析、聚类分析与多维尺度分析详解

相关推荐

专栏目录

判别分析、聚类分析与多维尺度分析详解

相关推荐

matlab与聚类分析

组合与统计数据分析及聚类的基础与方法

分析系统聚类主题分析可视化分析

多元统计分析：主成分分析、因子分析、聚类分析和判别分析详解

数据分析技术详解：主成分分析、因子分析、聚类与判别分析

聚类算法详解：层次聚类与相似度度量

聚类分析详解：从概念到Python实现

SAS系统中的聚类分析方法详解

多元统计分析课件判别分析详解

JMP多变量分析方法：深入理解并应用主成分分析、聚类分析，数据分析专家必修课

codepipeline-jvm-1.4.92.jar

专栏目录

最新推荐

模块化开发实战：AvalonDock与Prism框架整合构建桌面应用终极方案

异步调用与回调机制实现：miniRPC进阶开发技巧与事件驱动模型设计

自定义监控新姿势：SQLTracker插件开发实战指南（附SDK下载链接）

LBM网格划分策略揭秘：如何在精度与资源之间找到最佳平衡点？

【Qt本地数据库构建】：使用SQLite存储历史温度数据详解

Fluent湍流模型调试终极指南：为什么你的结果总不收敛？

GPU加速实战：大气廓线反演算法性能提升10倍的实现路径

RCWA vs FDTD方法全面对比：光栅仿真中谁更胜一筹？适用场景深度解析

【Weibull进阶实战】：三参数模型如何精准匹配复杂工程场景？

RTU角色大升级：从数据采集到边缘计算的智能配电网演进路径（ABB实战案例）