说明:文章为《数据挖掘:概念与技术 原书第03版》的学习笔记,该书是数据挖掘领域的经典之作,想了解更多内容请参阅原著。
带着问题看文章:
1、如何对数据进行预处理,提高数据质量,从而提高挖掘结果的质量?
2、如何对数据预处理,使得挖掘过程更加有效、更加容易?
一、数据预处理:概述
1、为什么要对数据预处理?
提升数据质量,确保数据满足应用要求。数据如果能满足其应用要求,那么它是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。
2、数据预处理的主要任务?
数据清理(data cleaning):现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致;
数据集成(data integration):合并来自多个数据存储的数据;有助于提高其后挖掘过程的准确性和速度;
数据归约(data reduction):可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性;