算法:数据预处理

原因:数据存在噪声,数据缺失值,数据不一致,数据库庞大,异种数据源等问题。
目的:解决上述问题,提高数据挖掘的质量。
方法:数据清理,数据集成,数据归约,数据变换和数据离散化。
数据质量:准确性、完整性、一致性、时效性、可信性,可解释性。

一、数据清理

1.    缺失值:许多元组的属性没记录值(可能缺失,可能故意留白后期填写。)
(1)忽略元组:适用于元组有多个缺少值,每个属性缺失值的百分比变化大时性能就会很差,采用忽略元组,就不能使用该元组的剩余属性值。
(2)人工填写缺失值:费时费力,不适合大的数据集。
(3)使用一个全局常量填充缺省值:将缺失值用同一个常量
(unknown)替换。方法简单,但不可靠。
(4)使用与给定元组同一类的所有样本的属性均值或中位数填充为缺失值。
(5)使用最可能的值填充:用贝叶斯,决策树等归纳确定。(最流行的策略)
2.噪声数据:被测量的变量的随机误差或方差。
(1)分箱:对数据分组,局部光滑(用箱中中位数,类似直方图)
(2)回归:函数拟合,线性回归(拟合两个属性最佳直线),多元线性回归(多个属性,曲面)
(3)离群点分析:聚类检测,聚类:将类似的值组织成群或簇。
特点:直观
3.数据处理过程
第一步:偏差检测
利用数据(元数据)性质的知识(均值,中位数,众数,值域,标准差,方差,数值的唯一性原则:属性值必须不同于给属性的其他值,空值等)判断离群点,噪声或要考察的不寻常的值。
第二步:数据变换
偏差检测和数据变换(纠正偏差)迭代执行(多次)
※材料中介绍的是商业工具;
数据清洗工具,数据审计工具,数据迁移工具

二、数据集成

集成多个数据库、数据立方体或文件,解决数据库庞大和一种数据源问题。
1.实体识别问题:等价实体如何匹配(例如怎样确定不同数据库中不同名称的字段指的是相同的属性)
2.冗余和相关性分析
(1)标称数据的χ2(卡方)相关检验

例题理解

(2)数值数据相关系数
(3)数据数值的协方差
3.元组重复(*)
4.数据值冲突的检测与处理:来自不同数据源的同一实体的属性值不同(单位,表示,编码等)

三、数据归约

简化数据集表示,产生同样的分析结果
主要包括维归约和数值归约。
1.数据归约策略
(1)维归约:减少属性个数(小波变换和主成分分析,把元数据变换或投影到较小的空间)
小波变换(DWT),待整理   ;主成分分析,待整理
属性子集选择(特征子集选择):,待整:删除不相关或冗余的属性(或维)减少数据量
(2)数值归约:用替代的、较小的数据表示形式替换原数据。
(3)数据压缩:使用变换,是数据压缩后重构表示

四、数据变换

对数据进行规范化、离散化和概念分层。
1、数据变换策略
(1)光滑:去掉数据中噪声,(分箱,回归,聚类)
(2)属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中。
(3)聚集:对数据进行汇总或聚集。
(4)规范化:把数据按比例缩放,投影到一个小的区间。
最小-最大规范化:

(5)离散化:连续的原始值用区间或概念(S,M,L等)标签替换。直方图分析离散化,聚类、决策树和相关分析离散化
(6)由标称产生概念分层:研究标称属性的概念分层(国,省,市,区县)



 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值