MATLAB算法实战应用案例精讲-【数据分析】数据仓库-数据治理

目录

几个高频面试题目

数仓为什么要分层?

数仓分几层最好?

数仓建设规范

一、数据模型架构原则

1. 数仓分层原则

1. 数据源层:ODS(Operational Data Store)

2. 数据仓库层:DW(Data Warehouse)

1) 数据明细层:DWD(Data Warehouse Detail)

2) 数据中间层:DWM(Data WareHouse Middle)

3) 数据服务层:DWS(Data WareHouse Servce)

3. 数据应用层:APP(Application)

4. 维表层(Dimension)

2. 主题域划分原则

1) 按照业务或业务过程划分

2) 按照数据域划分

3. 数据模型设计原则

1) 高内聚、低耦合

2) 核心模型和扩展模型要分离

3) 公共处理逻辑下沉及单一

4) 成本与性能平衡

5) 数据可回滚

二、数仓公共开发规范

1. 层次调用规范

2. 数据类型规范

3. 数据冗余规范

4. NULL字段处理规范

5. 指标口径规范

1) 指标梳理

2) 指标管理

6. 数据表处理规范

1) 增量表

2) 全量表

3) 快照表

4) 拉链表

7. 表的生命周期管理

1) 历史数据等级划分

2) 表类型划分

三、数仓各层开发规范

1. ODS层设计规范

2. 公共维度层设计规范

1) 设计准则

2) 存储及生命周期管理

3. DWD明细层设计规范

1) 存储及生命周期管理

2) 事务型事实表设计准则

3) 周期快照事实表

4) 累积快照事实表

4. DWS公共汇总层设计规范

1) 聚集的基本原则

2) 聚集的基本步骤

3) 公共汇总层设计原则

四、数仓命名规范

1. 词根设计规范

2. 表命名规范

1) 常规表

2) 中间表

3) 临时表

4) 维度表

5) 手工表

3. 指标命名规范

1) 公共规则

2) 指标命名规范

数仓-数据质量建设

1. 为什么要进行数据质量评估

2. 数据质量衡量标准

3. 数据质量管理流程

1. 数据资产等级

1) 等级定义

2) 等级划分

2. 数据加工过程卡点校验

1) 在线系统数据校验

2) 离线系统数据校验

3. 数据处理风险监控

1) 数据质量监控

2) 数据及时性监控

数仓建设及数据治理

数仓设计

数仓架构

数仓建模方法

1. 范式建模法

2. 实体建模法

3. 维度建模法

实际业务中数仓分层

数据层具体实现

数据治理

数据治理之道是什么

1. 数据治理需要体系建设

2. 数据治理需要夯实基础

3. 数据治理需要IT赋能

4. 数据治理需要聚焦数据

5. 数据治理需要建管一体化

浅谈数据治理方式

1. 规范治理

2. 架构治理

3. 元数据治理

4. 安全治理

5. 数据生命周期治理


 

几个高频面试题目

数仓为什么要分层?

  1. 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。

  2. 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

数据仓库之父 Bill Inmon对数据仓库做了定义—

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

林聪木

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值