【理论篇】数据挖掘 第三章 数据预处理

说明:文章为《数据挖掘:概念与技术 原书第03版》的学习笔记,该书是数据挖掘领域的经典之作,想了解更多内容请参阅原著。

带着问题看文章:

        1、如何对数据进行预处理,提高数据质量,从而提高挖掘结果的质量?

        2、如何对数据预处理,使得挖掘过程更加有效、更加容易?

一、数据预处理:概述

        1、为什么要对数据预处理?

        提升数据质量,确保数据满足应用要求。数据如果能满足其应用要求,那么它是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

        2、数据预处理的主要任务?

        数据清理(data cleaning):现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致;

        数据集成(data integration):合并来自多个数据存储的数据;有助于提高其后挖掘过程的准确性和速度;

        数据归约(data reduction):可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值