数据挖掘期末复习

数据挖掘期末复习

文章目录

数据分析

采用适当的分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取除有用的信息的过程。

数据挖掘

从海量数据中通过相关算法发现隐藏再数据中的规律和知识的过程

”在大量数据中挖掘知识“

数据:数值、文本、图像、视频、声音等

数据分析:用统计分析方法对数据进行详细研究和总结概括,提取有用信息,汇总结论,支持开发数据功能

数据挖掘:从大量数据中发掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并利用这些知识和规则建立支持决策的模型或提供预测

数据挖掘与分析有利于:揭示事实、发现趋势、预测未来

数据挖掘过程

1、确定目标和任务
2、采集数据

采集数据的标准:

相关性

可靠性

时效性

采集方式:

等距抽样、随机抽样、分层抽样、分类抽样、根据业务不同全收集

3、数据预处理

数据缺点:噪音多、不完整、不一致

处理目的:数据一致准确、完整无缺失、纬度低方便处理

处理方法:数据清洗(数据筛选、缺失值处理、数据对齐、属性选择等)

数据交换(数据标准化、数据转换、数据规约、主成分分析等)

4、数据探索与分析

需要考虑:

是否达到原来设想的要求;

样本中有没有明显的规律和趋势;

有没有出现从未设想过的数据状态;

属性之间的相关性。

分析处理方法:

缺失值分析

周期性分析

异常值分析

相关分析

5、问题建模

)

6、数据挖掘算法
7、算法评估与算法优化
8、模型发布

数据

数据对象:一个完整的个体

数据属性:数据对象的特征或向量表示,例如一个顾客数据对象通常包含以下属性数据:customer _ID, name, address,Telephone number etc.

数据属性基本类型

标称属性(Nominal ):标签属性,例如

头发颜色Hair_color = {auburn, black, blond, brown, grey, red, white}

二元属性(Binary):{0,1},性别{男,女}

序数属性(ordinal):有顺序关系,用于主观质量评价,例如,服务满意等级评价{非常满意,满意,不满意}

数值属性(Numeric: quantitative):离散属性(例如区号),连续属性(例如,温度值)

数据基本统计特性

集中趋势度量

均值

中位数

image-20241108205745696

众数

离中趋势度量

极差 : 最大值-最小值

标准差 : 度量数据偏离均值的程度(s)

变异系数 :度量标准差相对于均值的离中趋势

image-20241108205705599

四分位数间距 :四分位数:上四分位数QU,下四分位数QL,两者之差越大,说明数据差异性越大

均值

image-20241108205822786

中位数

image-20241108205837134

众数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对称性与偏斜性

image-20241108205911547

方差与标准差

image-20241108210006234

盒图

image-20241108210053324

数据相似性与相异性

相似性

标称属性

二元属性

序数属性

数值属性

混合多属性

标称属性

1、对标称属性值符号化;

2、直接判断符号的异同。

二元属性

image-20241108210351240

数值属性
闵可夫斯基距离

image-20241108210423219

曼哈顿距离

image-20241108210525283

欧氏距离

image-20241108210538273

切比雪夫距离

image-20241108210552270

序数属性

image-20241108210626043

image-20241108210649573

余弦相似性

image-20241108210729065

image-20241108210736568

余弦相似性VS欧式距离

image-20241108210822126

数据分析与预处理

数据分析

数据清洗

数据集成

数据规约

数据变换

数据分析

数据质量分析

image-20241108210956169

数据缺失的处理

image-20241108211023299

缺失值分析

image-20241108211051777

一致性分析

image-20241108211121775

数据特征分析

分布特征

对比分析

统计量分析

周期性分析

贡献度分析

相关性分析

分布分析

image-20241108211325795

image-20241109100441113

image-20241109100452841

image-20241109100506514

对比分析

image-20241109100538117

统计量分析

image-20241109100604718

image-20241109100619899

周期性分析+贡献度分析

image-20241109100651629

相关性分析

image-20241109100716811

image-20241109100727931

image-20241109100737915

image-20241109100744329

image-20241109100814552

数据预处理

数据清洗

数据集成

数据变换

数据规约

数据清洗

image-20241109100908741

数据集成

image-20241109101258769

数据变换

image-20241109101321281

数据规约

image-20241109101340898

属性规约

image-20241109101353499

image-20241109101402448

主成分分析——PCA算法

image-20241109101428819

image-20241109101436847

image-20241109101519547

image-20241109101527827

image-20241109101540328

基本概念

image-20241109101825575

image-20241109101935143

image-20241109102000389

image-20241109102136235

image-20241109102210466

image-20241109102244557

image-20241109102254410

image-20241109102306925

image-20241109102318250

image-20241109102329512

数值规约

image-20241109102350870

频繁模式挖掘与关联规则发现

共现性:人们猜测、发现、推断事物之间是否存在隐含关联关系的重要现象依据

频繁模式

频繁出现在数据集中的模式

  1. 无序集合:无序集合
  2. 子序列集:有序集合
  3. 子结构:子图、子树、子格等

频繁项集模式挖掘

image-20241109183152551

基本概念

项:事务中的元素

K-项集:规模为k的项的集合

项集频度(支持度计数):项集出现的频数

支持度:项集在事务集中出现的频度比率 support(A)=|A|/N

频繁项集:支持度大于等于最小支持度阈值的项集

置信度:confidence(A→B)=support(A∪B)/support(A)

关联规则挖掘的步骤
  1. 找出所有的频繁项集

  2. 有频繁项集产生强关联规则,这些关联规则必须同时满足最小支持度和最小置信度

    image-20241109183626385

image-20241109183638793

  • 所有的最大频繁项集都是闭频繁项集,因为如果一个项集是最大的,那么它不可能有频繁的超集,这符合闭频繁项集的定义。

    • Maximal⊆ClosedMaximal⊆Closed
  • 所有的闭频繁项集都是频繁项集,因为闭频繁项集的定义是基于频繁项集的。

    • Closed⊆FrequentClosed⊆Frequent
  • 但是,并非所有的频繁项集都是闭频繁项集,因为频繁项集中可能包含那些有频繁超集的项集。

    • Frequent⊈ClosedFrequent⊆Closed
  • 同样,并非所有的闭频繁项集都是最大频繁项集,因为闭频繁项集中可能包含那些不是最大的项集(即存在其他闭频繁项集是它的真超集)。

    • Closed⊈MaximalClosed\⊆Maximal
Apriori算法

频繁项集的所有非空子集也一定是频繁的。

具有反单调性。

所有非频繁项集的超集也一定非频繁。

算法过程

image-20241109185504622

image-20241109185512227

image-20241109185832511

提高Apriori

image-20241110104441492

散列的算法——DHP算法

image-20241110104544296

image-20241110104645622

划分的方法

image-20241110104725788

Apriori算法缺点

image-20241110104807932

FP-growth算法
基本思想
  1. 把一个大型的数据库压缩到一棵频繁模式树(FP-树)
    1. •高浓缩,但对频繁项集挖掘是完整的
    2. •避免了高花销的数据库扫描
    3. •产生了一个高效的,基于FP-树的频繁模式挖掘方法
      1. •分治策略:把挖掘任务分解成小的任务
      2. •避免候选集的产生:只检测子数据库
过程
  1. 构造频繁模式树FP-tree。

  2. 挖掘频繁模式树。

    迭代:

    1. 构造条件模式基;
    2. 挖掘频繁模式。

image-20241110105057753

image-20241110105130558

image-20241110105158530

image-20241110105206623

image-20241110105232882

image-20241110105248410

FP-growth算法的优势

image-20241110105317431

关联规则发现与分析

提升度

image-20241110105642795

X^2检验

image-20241110105709776

置信度评估性质

image-20241110105813562

零事务

image-20241110105824834

分类

基于规则的分类器

image-20241110110021793

image-20241110110033025

image-20241110110116450

image-20241110110121488

image-20241110110636337

image-20241110110644974

image-20241110111143132

image-20241110111150324

建立规则分类器

image-20241110111235570

image-20241110111250098

image-20241110111308952

image-20241110123354741

image-20241110123425538

image-20241110123453108

image-20241110123616898

image-20241110123605400

image-20241110123650415

image-20241110123657295

停止条件与规则剪枝

image-20241110123750509

image-20241110123807870

基于规则分类器的优势

image-20241110123824455

RIPPER算法

image-20241110123845832

image-20241110124013397

image-20241110124020642

image-20241110124026640

间接分类

image-20241110124046222

image-20241110124051071

image-20241110124059078

image-20241110124106362

image-20241110124116341

image-20241110124131512

聚类

image-20241110152011964

聚类质量

image-20241110152117574

image-20241110152125517

image-20241110152252977

image-20241110152317093

聚类算法策略

image-20241110152353724

划分方法

簇由簇心表示

image-20241110152445356

image-20241110152530921

k-means

image-20241110152548414

image-20241110152620339

凸集与凸函数

image-20241110153401269

image-20241110153416616

k-modes

image-20241110153424214

k-means不足

image-20241110153606925

PAM方法

image-20241110153613193

image-20241110153654195

CLARA

image-20241110153711999

CLAEANS

image-20241110153817050

层次方法

image-20241110153858963

AGNES凝聚法

image-20241110154647835

image-20241110154725580

DIANA分裂法

image-20241110154741852

image-20241110154759866

簇间距离

image-20241110154815220

簇描述

image-20241110154856311

image-20241110154908073

分层聚类评估

image-20241110154927471

BIRCH算法

image-20241110155000715

image-20241110155019741

image-20241110155028896

聚类特征

image-20241110155044649

image-20241110155053401

image-20241110155059882

image-20241110155112604

CF-Tree构造过程

image-20241110155129727

image-20241110155140140

image-20241110155146809

image-20241110155156099

image-20241110155202407

image-20241110155210314

image-20241110155221461

变色龙方法CHAMELEON

image-20241110155242160

概率分层聚类

image-20241110155332103

image-20241110155341358

image-20241110155355628

image-20241110155404426

密度划分方法

image-20241110155438670

DBSCAN算法

image-20241110155502296

image-20241110155511133

image-20241110155528018

image-20241110155541009

image-20241110155549445

聚类评价

有真实结果

image-20241110155611536

image-20241110155619640

image-20241110155626076

image-20241110155634894

无真实结果

image-20241110155710461

image-20241110155718549

离群点检测

image-20241110161123571

image-20241110161128920

image-20241110161143840

image-20241110161150886

离群点检测的挑战

image-20241110161217989

检测方法
监督方法

image-20241110161231967

非监督方法

image-20241110161258885

半监督方法

image-20241110161325131

统计方法

image-20241110161337929

基于近似的方法

image-20241110161353101

基于聚类的方法

image-20241110161409757

统计方法

image-20241110161425816

image-20241110161434597

image-20241110161441982

image-20241110161452215

密度方法

[外链图片转存中…(img-h4Zj0QcK-1731813182252)]

[外链图片转存中…(img-12Wymtqm-1731813182253)]

[外链图片转存中…(img-NbwQjz9j-1731813182253)]

[外链图片转存中…(img-5k8FiK93-1731813182253)]

离群点检测的挑战

[外链图片转存中…(img-OsnxpQM8-1731813182253)]

检测方法
监督方法

[外链图片转存中…(img-ZQIMKyIg-1731813182254)]

非监督方法

[外链图片转存中…(img-jWtCCtf1-1731813182254)]

半监督方法

[外链图片转存中…(img-EXm2uwCA-1731813182254)]

统计方法

[外链图片转存中…(img-F8BIeh0r-1731813182254)]

基于近似的方法

[外链图片转存中…(img-roS6jbvh-1731813182255)]

基于聚类的方法

[外链图片转存中…(img-jlaOIU2B-1731813182255)]

统计方法

[外链图片转存中…(img-xGRS1iJs-1731813182255)]

[外链图片转存中…(img-XLGcqtli-1731813182255)]

[外链图片转存中…(img-gEZAJoE6-1731813182256)]

[外链图片转存中…(img-5zp1N5Q2-1731813182256)]

密度方法

image-20241110161505966

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值