说明:文章为《数据挖掘:概念与技术 原书第03版》的学习笔记,该书是数据挖掘领域的经典之作,想了解更多内容请参阅原著。
一、数据仓库: 基本概念
1、什么是数据仓库
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程”。
- 面向主题的(subject-oriented):数据仓库围绕一些重要主题,如顾客、供应商、产品和销售组织;
- 集成的(integrated):通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录集成在一起;
- 时变的(time-variant):数据存储从历史的角度(例如,过去5~10年)提供信息。数据仓库中的关键结构都隐式或显式地包含时间元索;
- 非易失的(nonvolatile):数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据;
2、操作数据库系统与数据仓库的区别
- 联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称做联机事务处理(Online Transaction Proceesing,OLTP);
- 数据仓库系统在数据分析和决策方面为用户或“知识工人”提供服务。这种系统可以用不同的格式组织和提供数据,以便满足不同用户的形形色色的需求。这种系统称做联机分析处理(OnLine Analyical Processing,OLAP)系统;