数据挖掘期末复习
数据分析
采用适当的分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取除有用的信息的过程。
数据挖掘
从海量数据中通过相关算法发现隐藏再数据中的规律和知识的过程
”在大量数据中挖掘知识“
数据:数值、文本、图像、视频、声音等
数据分析:用统计分析方法对数据进行详细研究和总结概括,提取有用信息,汇总结论,支持开发数据功能
数据挖掘:从大量数据中发掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并利用这些知识和规则建立支持决策的模型或提供预测
数据挖掘与分析有利于:揭示事实、发现趋势、预测未来
数据挖掘过程
1、确定目标和任务
2、采集数据
采集数据的标准:
相关性
可靠性
时效性
采集方式:
等距抽样、随机抽样、分层抽样、分类抽样、根据业务不同全收集
3、数据预处理
数据缺点:噪音多、不完整、不一致
处理目的:数据一致准确、完整无缺失、纬度低方便处理
处理方法:数据清洗(数据筛选、缺失值处理、数据对齐、属性选择等)
数据交换(数据标准化、数据转换、数据规约、主成分分析等)
4、数据探索与分析
需要考虑:
是否达到原来设想的要求;
样本中有没有明显的规律和趋势;
有没有出现从未设想过的数据状态;
属性之间的相关性。
分析处理方法:
缺失值分析
周期性分析
异常值分析
相关分析
5、问题建模
)
6、数据挖掘算法
7、算法评估与算法优化
8、模型发布
数据
数据对象:一个完整的个体
数据属性:数据对象的特征或向量表示,例如一个顾客数据对象通常包含以下属性数据:customer _ID, name, address,Telephone number etc.
数据属性基本类型
标称属性(Nominal ):标签属性,例如
头发颜色Hair_color = {auburn, black, blond, brown, grey, red, white}
二元属性(Binary):{0,1},性别{男,女}
序数属性(ordinal):有顺序关系,用于主观质量评价,例如,服务满意等级评价{非常满意,满意,不满意}
数值属性(Numeric: quantitative):离散属性(例如区号),连续属性(例如,温度值)
数据基本统计特性
集中趋势度量
均值
中位数
众数
离中趋势度量
极差 : 最大值-最小值
标准差 : 度量数据偏离均值的程度(s)
变异系数 :度量标准差相对于均值的离中趋势
四分位数间距 :四分位数:上四分位数QU,下四分位数QL,两者之差越大,说明数据差异性越大
均值
中位数
众数
对称性与偏斜性
方差与标准差
盒图
数据相似性与相异性
相似性
标称属性
二元属性
序数属性
数值属性
混合多属性
标称属性
1、对标称属性值符号化;
2、直接判断符号的异同。
二元属性
数值属性
闵可夫斯基距离
曼哈顿距离
欧氏距离
切比雪夫距离
序数属性
余弦相似性
余弦相似性VS欧式距离
数据分析与预处理
数据分析
数据清洗
数据集成
数据规约
数据变换
数据分析
数据质量分析
数据缺失的处理
缺失值分析
一致性分析
数据特征分析
分布特征
对比分析
统计量分析
周期性分析
贡献度分析
相关性分析
分布分析
对比分析
统计量分析
周期性分析+贡献度分析
相关性分析
数据预处理
数据清洗
数据集成
数据变换
数据规约
数据清洗
数据集成
数据变换
数据规约
属性规约
主成分分析——PCA算法
基本概念
数值规约
频繁模式挖掘与关联规则发现
共现性:人们猜测、发现、推断事物之间是否存在隐含关联关系的重要现象依据
频繁模式
频繁出现在数据集中的模式
- 无序集合:无序集合
- 子序列集:有序集合
- 子结构:子图、子树、子格等
频繁项集模式挖掘
基本概念
项:事务中的元素
K-项集:规模为k的项的集合
项集频度(支持度计数):项集出现的频数
支持度:项集在事务集中出现的频度比率 support(A)=|A|/N
频繁项集:支持度大于等于最小支持度阈值的项集
置信度:confidence(A→B)=support(A∪B)/support(A)
关联规则挖掘的步骤
-
找出所有的频繁项集
-
有频繁项集产生强关联规则,这些关联规则必须同时满足最小支持度和最小置信度
-
所有的最大频繁项集都是闭频繁项集,因为如果一个项集是最大的,那么它不可能有频繁的超集,这符合闭频繁项集的定义。
- Maximal⊆ClosedMaximal⊆Closed
-
所有的闭频繁项集都是频繁项集,因为闭频繁项集的定义是基于频繁项集的。
- Closed⊆FrequentClosed⊆Frequent
-
但是,并非所有的频繁项集都是闭频繁项集,因为频繁项集中可能包含那些有频繁超集的项集。
- Frequent⊈ClosedFrequent⊆Closed
-
同样,并非所有的闭频繁项集都是最大频繁项集,因为闭频繁项集中可能包含那些不是最大的项集(即存在其他闭频繁项集是它的真超集)。
- Closed⊈MaximalClosed\⊆Maximal
Apriori算法
频繁项集的所有非空子集也一定是频繁的。
具有反单调性。
所有非频繁项集的超集也一定非频繁。
算法过程
提高Apriori
散列的算法——DHP算法
划分的方法
Apriori算法缺点
FP-growth算法
基本思想
- 把一个大型的数据库压缩到一棵频繁模式树(FP-树)
- •高浓缩,但对频繁项集挖掘是完整的
- •避免了高花销的数据库扫描
- •产生了一个高效的,基于FP-树的频繁模式挖掘方法
- •分治策略:把挖掘任务分解成小的任务
- •避免候选集的产生:只检测子数据库
过程
-
构造频繁模式树FP-tree。
-
挖掘频繁模式树。
迭代:
- 构造条件模式基;
- 挖掘频繁模式。
FP-growth算法的优势
关联规则发现与分析
提升度
X^2检验
置信度评估性质
零事务
分类
基于规则的分类器
建立规则分类器
停止条件与规则剪枝
基于规则分类器的优势
RIPPER算法
间接分类
聚类
聚类质量
聚类算法策略
划分方法
簇由簇心表示
k-means
凸集与凸函数
k-modes
k-means不足
PAM方法
CLARA
CLAEANS
层次方法
AGNES凝聚法
DIANA分裂法
簇间距离
簇描述
分层聚类评估
BIRCH算法
聚类特征
CF-Tree构造过程
变色龙方法CHAMELEON
概率分层聚类
密度划分方法
DBSCAN算法
聚类评价
有真实结果
无真实结果
离群点检测
离群点检测的挑战
检测方法
监督方法
非监督方法
半监督方法
统计方法
基于近似的方法
基于聚类的方法
统计方法
密度方法
[外链图片转存中…(img-h4Zj0QcK-1731813182252)]
[外链图片转存中…(img-12Wymtqm-1731813182253)]
[外链图片转存中…(img-NbwQjz9j-1731813182253)]
[外链图片转存中…(img-5k8FiK93-1731813182253)]
离群点检测的挑战
[外链图片转存中…(img-OsnxpQM8-1731813182253)]
检测方法
监督方法
[外链图片转存中…(img-ZQIMKyIg-1731813182254)]
非监督方法
[外链图片转存中…(img-jWtCCtf1-1731813182254)]
半监督方法
[外链图片转存中…(img-EXm2uwCA-1731813182254)]
统计方法
[外链图片转存中…(img-F8BIeh0r-1731813182254)]
基于近似的方法
[外链图片转存中…(img-roS6jbvh-1731813182255)]
基于聚类的方法
[外链图片转存中…(img-jlaOIU2B-1731813182255)]
统计方法
[外链图片转存中…(img-xGRS1iJs-1731813182255)]
[外链图片转存中…(img-XLGcqtli-1731813182255)]
[外链图片转存中…(img-gEZAJoE6-1731813182256)]
[外链图片转存中…(img-5zp1N5Q2-1731813182256)]