数据仓库的基本原理

目录

一、数据仓库的定义

二、数据仓库的基本特征

1. 面向主题

2. 集成

3. 不可更新(非易失性)

4. 随时间不断变化

三、数据组织方式


一、数据仓库的定义

数据仓库是由W.H.Inmon1992年提出的概念,他在《Building the Data Warehouse》一书中将其定义为:

  • 面向主题的

  • 集成的

  • 不可更新的

  • 随时间不断变化的数据集合

  • 用于支持经营管理决策制定

Informix公司Tim Shelter的定义补充:

  • 将企业网络中分散的商业数据集成到单一关系型数据库中

  • 便于信息访问和历史数据分析

  • 支持研究事物发展走势


二、数据仓库的基本特征

1. 面向主题

主题是决策者关心的重点分析领域,如CRM中的客户挖掘或ERP中的库存管理。

特点​:

  • 按主题组织信息,而非业务活动

  • 包含主题所有相关信息,剔除无关数据

  • 形成完整一致的信息集合

  • 主题间存在逻辑重叠(非物理存储重叠)

示例​:

在商场系统中,可提取三个主题:

  • 商品(固有信息、采购信息、销售信息、库存信息)

  • 供应商(固有信息、供应商品信息)

  • 顾客(固有信息、购物信息)


2. 集成

特点​:

  • 从多种数据源(数据库、文件系统、网络)获取数据

  • 通过统一和综合消除不一致性

  • 形成企业单一物理镜像

  • 包含多种粒度的数据

集成方法​:

  • 统一:解决编码、命名、单位等不一致

  • 综合:进行统计、抽样等计算


3. 不可更新(非易失性)

特点​:

  • 数据为静态快照,主要供查询

  • 批量加载和访问

  • 稳定环境有利于分析和决策

  • 存储管理比DBMS简单

例外情况​:

  • 数据源变化时需要刷新

  • 新分析需求可能需要新数据抽取

  • 可删除过时数据


4. 随时间不断变化

特点​:

  • 记录企业历史信息而不仅是当前状态

  • 数据带有时间属性

  • 定期统一更新(增新删旧)

与操作型环境对比​:

特性

操作型环境

数据仓库

时间范围

60-90天

5-10年

数据类型

当前型数值

历史快照

关键字结构

可能不含时间

必含时间元素

更新方式

记录级更新

批量加载


三、数据组织方式

物理存储形式​:

  1. 多维数据库(MDDB,Multi-Dimensional DataBase):用多维数组存储

  2. 关系数据库:同一主题的关系有公共关键字

示例​:

商品主题以"商品号"为公共键,包含:

  • 细节数据(如商品表、采购表)

  • 综合数据(如按时间段统计的采购总量表)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羚风雯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值