判别分析、聚类分析与多维尺度分析详解

立即解锁
发布时间: 2025-09-07 02:00:05 阅读量: 15 订阅数: 36 AIGC
PDF

数据科学理论与实践

# 判别分析、聚类分析与多维尺度分析详解 ## 1. 判别分析 ### 1.1 地震与爆炸事件判别 通过切尔诺夫(Chernoff)和库尔贝克 - 莱布勒(Kullback - Leibler)差异对地震和爆炸事件进行象限分类。若未知事件所在象限的分类规则是该象限分类为爆炸,则可判定未知事件为爆炸。 ### 1.2 金融时间序列应用 选取 2008 年 9 月 15 日雷曼兄弟倒闭和 2010 年 5 月 6 日闪电崩盘事件的每分钟采样时间序列数据,每个时间序列包含 1024 个数据点。涉及的公司有埃克森美孚公司(XOM)、沃尔玛零售公司(WMT)、威瑞森通信公司(VZ)、联合技术公司(UTX)和麦当劳公司(MCD)。另外选取了 2009 年花旗集团和 2011 年IAMGOLD 公司(IAG)的股票市场数据,以确定雷曼兄弟倒闭是否对它们有影响,以及闪电崩盘是否对 2011 年的 IAG 股票有影响。 | 股票 | K - L 得分 | 切尔诺夫得分 | 股票 | K - L 得分 | 切尔诺夫得分 | | ---- | ---- | ---- | ---- | ---- | ---- | | XOM - 雷曼 | -0.425 | -0.022 | XOM - 闪电 | 0.085 | 0.017 | | WMT - 雷曼 | -0.159 | -0.009 | WMT - 闪电 | 0.068 | 0.016 | | VZ - 雷曼 | -0.156 | -0.009 | VZ - 闪电 | 0.102 | 0.018 | | UTX - 雷曼 | -0.436 | -0.022 | UTX - 闪电 | 0.163 | 0.034 | | MCD - 雷曼 | -0.101 | -0.006 | MCD - 闪电 | 0.124 | 0.025 | 使用 K - L 和切尔诺夫距离技术,基于频域对雷曼兄弟倒闭和闪电崩盘事件进行分析。通过公式(12.13)利用谱矩阵的对角元素获得 K - L 散度,优化切尔诺夫系数 𝛼(0.58) 以估计公式(12.14)中切尔诺夫差异 \(B_{\alpha}(\hat{f}_1, \hat{f}_2)\) 的最大值。2009 年花旗集团股票市场的 K - L 和切尔诺夫距离分别为 -0.106 和 -0.006,2011 年 IAG 股票市场的 K - L 和切尔诺夫距离分别为 -1.283 和 -0.033。从表中可知,雷曼兄弟倒闭的 K - L 和切尔诺夫距离为负,闪电崩盘的为正,从而正确区分了这两个事件。 | 股票 | K - L 得分 | 切尔诺夫得分 | | ---- | ---- | ---- | | CITI (2009) | -0.106 | -0.006 | | IAG (2011) | -1.283 | -0.033 | 通过切尔诺夫差异和 K - L 差异对雷曼兄弟倒闭和闪电崩盘事件进行象限分类,第一象限的点分类为闪电崩盘事件,第三象限的点分类为雷曼兄弟倒闭事件,由此得出雷曼兄弟倒闭对这两个事件有影响。 ## 2. 聚类分析 ### 2.1 聚类概述 聚类是将数据集分组的技术,使同一组内的数据具有比其他组更相似的属性。例如: - 帮助企业在客户群中发现不同的群体,进而制定有针对性的营销计划。 - 识别平均索赔成本较高的人寿保险保单持有人类别。 - 对国家或大陆断层沿线的地震震中进行分组等。 一个好的聚类方法应产生高质量的聚类,具有高类内相似度和低类间相似度。聚类结果的质量取决于所使用的相似度度量方法及其实现。相似度通常用距离函数 \(d(i, j)\) 表示,对于不同类型的变量(区间尺度、布尔型、分类型和有序型),距离函数的定义通常差异很大。 ### 2.2 聚类方法 聚类方法主要有以下几种: - 划分算法:构建各种划分,然后根据某种准则对其进行评估。 - 层次算法:使用某种准则对数据集(或对象)进行层次分解。 - 基于密度:基于连通性和密度函数。 - 基于网格:基于多级粒度结构。 - 基于模型:为每个聚类制定一个模型,目标是找到该模型之间的最佳拟合。 这里主要关注划分算法。 ### 2.3 划分算法 #### 2.3.1 k - 均值算法 k - 均值算法是一种迭代算法,将数据集划分为 k 个预定义的、唯一的、不重叠的聚类,每个数据点仅属于一个组。其目标是使簇内数据点尽可能相似,同时使簇之间尽可能不同。具体步骤如下: 1. **步骤 1**:将数据集划分为 k 个初始聚类。 2. **步骤 2**:遍历数据集中的项目,将每个项目分配给其质心最近的聚类。通常使用欧几里得距离计算距离,可使用标准化或非标准化的观测值。重新计算接收新项的聚类和失去该项的聚类的质心。 3. **步骤 3**:重复步骤 2,直到不再发生重新分配。 在实践中,也可以指定 k 个初始质心,然后进入步骤 2。最终项目到聚类的分配取决于初始划分或初始种子点的选择。经验表明,大多数主要的分配变化发生在第一次重新分配步骤。 #### 2.3.2 k - 中心点算法 k - 中心点(PAM)算法与 k - 均值算法类似,但 k - 中心点选择数据点作为中心(中心点),并且可以使用任意距离,而 k - 均值中聚类的中心不一定是输入数据点(而是聚类中各点的平均值)。其算法步骤如下: 1. **步骤 1**:初始化:从 n 个数据点中随机选择 k 个作为中心点。 2. **步骤 2**:分配步骤:将每个数据点关联到最近的中心点。 3. **步骤 3**:更新步骤:对于每个中心点 m 和与 m 关联的每个数据点 o,交换 m 和 o,并计算配置的总成本(即 o 与所有与 m 关联的数
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

物联网_赵伟杰

物联网专家
12年毕业于人民大学计算机专业,有超过7年工作经验的物联网及硬件开发专家,曾就职于多家知名科技公司,并在其中担任重要技术职位。有丰富的物联网及硬件开发经验,擅长于嵌入式系统设计、传感器技术、无线通信以及智能硬件开发等领域。
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看

最新推荐

模块化开发实战:AvalonDock与Prism框架整合构建桌面应用终极方案

![模块化开发实战:AvalonDock与Prism框架整合构建桌面应用终极方案](https://docs.devexpress.com/WindowsForms/images/docking2017-customization-dialog127346.png) # 摘要 本文围绕模块化开发与桌面应用架构设计展开,重点研究AvalonDock与Prism框架的整合机制及其在实际开发中的应用。深入分析了AvalonDock的布局系统与窗口管理机制、Prism框架的模块化结构与依赖注入原理,并探讨了两者集成时面临的关键技术挑战。文章提出了基于Prism的功能模块划分策略与接口设计方法,设

异步调用与回调机制实现:miniRPC进阶开发技巧与事件驱动模型设计

![minirpc:RPC,C,便携式,小型,嵌入式系统](https://itexamanswers.net/wp-content/uploads/2019/08/67.png) # 摘要 本文围绕异步调用与回调机制在miniRPC框架中的设计与实现展开系统研究。首先介绍了异步调用的基本原理与实现策略,分析了事件循环、任务调度机制及其在miniRPC中的具体实现方式。随后,深入探讨了回调机制的设计结构、生命周期管理及其在RPC通信中的集成应用。进一步地,本文结合事件驱动模型,研究了事件总线的构建与跨服务通信的实现方式。最后,针对异步调用与回调机制在实际应用中可能出现的性能瓶颈与稳定性问

自定义监控新姿势:SQLTracker插件开发实战指南(附SDK下载链接)

![自定义监控新姿势:SQLTracker插件开发实战指南(附SDK下载链接)](https://img-blog.csdnimg.cn/direct/f10ef4471cf34e3cb1168de11eb3838a.png) # 摘要 SQLTracker插件是一款面向分布式系统中SQL性能监控与追踪的扩展工具,旨在提升数据库操作的可观测性与调优效率。本文围绕SQLTracker插件的设计与实现,系统阐述了监控系统的核心原理、插件架构设计、关键技术实现路径及其在实际场景中的应用价值。文章首先分析了分布式监控的基本逻辑与SQL追踪机制,继而详细介绍了插件在SQL拦截、上下文绑定、调用链组

LBM网格划分策略揭秘:如何在精度与资源之间找到最佳平衡点?

![10_Rev尺度_REV多孔介质_格子Boltzmann_LBM_多孔介质_源码.rar](https://public.fangzhenxiu.com/fixComment/commentContent/imgs/1687451361941_0ssj5j.jpg?imageView2/0) # 摘要 LBM(格子玻尔兹曼方法)网格划分是复杂流体模拟与工程计算中的关键技术环节,直接影响模拟精度、计算效率与资源消耗。本文系统梳理了LBM网格划分的基本概念与核心挑战,深入分析了各类网格类型及其对数值稳定性和误差控制的影响机制。研究涵盖了从固定网格到自适应网格细化(AMR)等多种划分策略的

【Qt本地数据库构建】:使用SQLite存储历史温度数据详解

![【Qt本地数据库构建】:使用SQLite存储历史温度数据详解](https://duythanhcse.wordpress.com/wp-content/uploads/2013/06/31_sqlite_0.png) # 摘要 本文围绕基于Qt与SQLite数据库的温度数据存储与处理系统展开研究,系统介绍了SQLite数据库的核心特性、数据类型与SQL语法,并详细阐述了其在Qt开发平台中的集成方式。文章重点探讨了温度数据模型的设计与实现过程,包括数据库初始化、数据操作及性能优化策略。同时,结合Qt的数据可视化能力,分析了温度趋势图的绘制、数据导出与异常处理机制。最后,通过完整项目实

Fluent湍流模型调试终极指南:为什么你的结果总不收敛?

![Fluent湍流模型调试终极指南:为什么你的结果总不收敛?](https://d3i71xaburhd42.cloudfront.net/685c7657ea29f0c582b278597ef87aea31b56c8f/2-Figure1-1.png) # 摘要 本文系统探讨了Fluent中湍流模型的基本概念、理论基础、设置调参及收敛性优化策略。首先介绍了湍流的本质特性与主流数值模拟方法的适用性差异,分析了常见湍流模型(如Spalart-Allmaras、k-ε、k-ω及其SST变体)的适用场景与计算表现。随后详细阐述了在Fluent中合理配置湍流模型的关键参数与流程,并针对收敛性问

GPU加速实战:大气廓线反演算法性能提升10倍的实现路径

![GPU加速实战:大气廓线反演算法性能提升10倍的实现路径](https://www.intel.com/content/dam/developer/articles/technical/gpu-quicksort/gpu-quicksort-code-2.jpg) # 摘要 本文围绕GPU加速技术在大气廓线反演中的应用展开系统研究,介绍了大气辐射传输模型与反演算法的理论基础,分析了传统串行算法在计算效率与内存访问方面的瓶颈。基于GPU的并行架构与CUDA编程模型,本文提出针对反演算法的并行化重构策略,并探讨了内存布局优化、数据传输机制以及数值稳定性的实现方法。通过构建性能评估体系,验

RCWA vs FDTD方法全面对比:光栅仿真中谁更胜一筹?适用场景深度解析

![RCWA](https://img-blog.csdnimg.cn/direct/fb9a0badefb947a7bfdf69181494091b.jpeg) # 摘要 本文系统梳理了光栅仿真中常用的两种数值方法——严格耦合波分析(RCWA)和时域有限差分法(FDTD)的理论基础与实现过程。从周期结构电磁场建模到傅里叶展开与S矩阵求解,深入解析了RCWA的数学推导与数值实现,同时围绕麦克斯韦方程离散化、Yee网格与GPU加速策略阐述了FDTD方法的核心技术。文章通过对比两种方法在光栅仿真中的精度、效率及适用结构,结合金属与介质光栅的实际案例,明确了各自的优势与局限。最后,基于不同工程

【Weibull进阶实战】:三参数模型如何精准匹配复杂工程场景?

![【Weibull进阶实战】:三参数模型如何精准匹配复杂工程场景?](https://community.jmp.com/t5/image/serverpage/image-id/47573i462746AE4105B48C?v=v2) # 摘要 Weibull三参数模型因其在描述寿命、强度及环境数据方面的灵活性和适应性,广泛应用于可靠性工程、材料科学和可再生能源等多个领域。本文系统阐述了Weibull分布的基本理论及其三参数扩展形式,深入探讨了参数估计方法、模型拟合评估标准及其实现技术。结合多个工程实际案例,分析了该模型在寿命预测、结构安全评估与风速建模中的关键应用。同时,本文介绍了

RTU角色大升级:从数据采集到边缘计算的智能配电网演进路径(ABB实战案例)

![RTU角色大升级:从数据采集到边缘计算的智能配电网演进路径(ABB实战案例)](https://jp.mathworks.com/company/technical-articles/deploying-predictive-maintenance-algorithms-to-the-cloud-and-edge/_jcr_content/mainParsys/image_0_copy_copy_co_516148823.adapt.full.medium.jpg/1676909759543.jpg) # 摘要 随着智能配电网的快速发展,远程终端单元(RTU)正从传统监测设备向具备边