一.概述
1.数据质量三要素: 准确性,完整性,一致性
二.数据预处理的几种方法
1.数据清理
缺失值:1.使用属性的中心度量(如均值或中位数)填充缺失值。
2.使用与给定元组属于同一类的所有样本对应属性的均值或中位数。
3.使用最可能的值填充缺失值(最流行的策略)。使用回归,贝叶斯形式化方法的基于推理的工具或决策树归纳确定。
噪声数据:
2.数据集成
3.数据规约
4.数据变换
一.概述
1.数据质量三要素: 准确性,完整性,一致性
二.数据预处理的几种方法
1.数据清理
缺失值:1.使用属性的中心度量(如均值或中位数)填充缺失值。
2.使用与给定元组属于同一类的所有样本对应属性的均值或中位数。
3.使用最可能的值填充缺失值(最流行的策略)。使用回归,贝叶斯形式化方法的基于推理的工具或决策树归纳确定。
噪声数据:
2.数据集成
3.数据规约
4.数据变换