目录
一、数据仓库的定义
数据仓库是由W.H.Inmon在1992年提出的概念,他在《Building the Data Warehouse》一书中将其定义为:
-
面向主题的
-
集成的
-
不可更新的
-
随时间不断变化的数据集合
-
用于支持经营管理决策制定
Informix公司Tim Shelter的定义补充:
-
将企业网络中分散的商业数据集成到单一关系型数据库中
-
便于信息访问和历史数据分析
-
支持研究事物发展走势
二、数据仓库的基本特征
1. 面向主题
主题是决策者关心的重点分析领域,如CRM中的客户挖掘或ERP中的库存管理。
特点:
-
按主题组织信息,而非业务活动
-
包含主题所有相关信息,剔除无关数据
-
形成完整一致的信息集合
-
主题间存在逻辑重叠(非物理存储重叠)
示例:
在商场系统中,可提取三个主题:
-
商品(固有信息、采购信息、销售信息、库存信息)
-
供应商(固有信息、供应商品信息)
-
顾客(固有信息、购物信息)
2. 集成
特点:
-
从多种数据源(数据库、文件系统、网络)获取数据
-
通过统一和综合消除不一致性
-
形成企业单一物理镜像
-
包含多种粒度的数据
集成方法:
-
统一:解决编码、命名、单位等不一致
-
综合:进行统计、抽样等计算
3. 不可更新(非易失性)
特点:
-
数据为静态快照,主要供查询
-
批量加载和访问
-
稳定环境有利于分析和决策
-
存储管理比DBMS简单
例外情况:
-
数据源变化时需要刷新
-
新分析需求可能需要新数据抽取
-
可删除过时数据
4. 随时间不断变化
特点:
-
记录企业历史信息而不仅是当前状态
-
数据带有时间属性
-
定期统一更新(增新删旧)
与操作型环境对比:
特性 | 操作型环境 | 数据仓库 |
---|---|---|
时间范围 | 60-90天 | 5-10年 |
数据类型 | 当前型数值 | 历史快照 |
关键字结构 | 可能不含时间 | 必含时间元素 |
更新方式 | 记录级更新 | 批量加载 |
三、数据组织方式
物理存储形式:
-
多维数据库(MDDB,Multi-Dimensional DataBase):用多维数组存储
-
关系数据库:同一主题的关系有公共关键字
示例:
商品主题以"商品号"为公共键,包含:
-
细节数据(如商品表、采购表)
-
综合数据(如按时间段统计的采购总量表)