-
常见的数仓模型:ER模型、维度模型
-
ER模型(范式模型),更多用来梳理业务配合维度建模使用,E为实体,多数情况下落为维度数据;R为实体的关系,多数情况下落为事实数据
-
维度模型,在维度建模的基础上又可分为三种模型:星型模型、雪花模型、星座模型
-
数仓建模流程:业务模型->概念模型->逻辑模型->物理模型
-
数仓建模过程:选择业务过程、声明粒度、确定维度、确定事实
-
模型设计的思路:自上而下、自下而上
-
自上而下的方式(这里的上指的是数据源出发),一个企业建立唯一的数据中心,数据是经过整合、清洗、去掉脏数据、标准的、能够提供统一的视图
-
自下而上的方式(这里的下指的是从业务需求出发),建设数据仓库应该按照实际的应用需求,加载需要的数据,不需要的数据不要加载到数据仓库中
-
多维体系结构(MD)有三个关键性概念:总线架构,一致性维度和一致性事实
-
星型模型是一张事实表,根据主键关联多张一级维度表。星型架构是一种非规范化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余。很多统计查询不需要做外部的连接,通过冗余换取运行效率
-
雪花模式是星型模式的扩展,其中某些维表被规范化,进一步分解到附加维度表中。优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能
-
星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基于多张事实表的,而且共享维度信息。常用于数据关系更复杂的场景。也称事实星座模型