数据仓库——数仓分层

本文详细介绍了数据仓库的分层结构,包括ODS、DWD、DIM、DWS、DM和APP/ADS各层的作用、步骤及实例。ODS层存放原始数据,DWD层构建最细粒度的明细层,DIM层建立一致性维度,DWS层进行轻度聚合,DM层按主题汇总,APP/ADS层则针对具体业务需求提供分析指标。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.分层的作用

  • 数仓分层的目的是:逐层解耦,减少重复计算,降低烟囱式开发。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。具体如下:
    • 清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解,实现业务数据解耦
    • 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算
    • 统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径
    • 复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题

二、ODS (opreational data store)

  • 存放未经过处理的原始数据至数据仓库系统,结构上与源系统保持一致,是数据仓库的数据准备区。
  • 作用
    • ①保持数据原貌不做任何修改,起到备份数据的作用
    • ②数据采用压缩,减少磁盘存储空间(如:原始数据100G,可以压缩到10G左右)
    • ③创建分区表,防止后续的全表扫描

三、DWD(data warehouse detail)

1.概览
  • DWD层是以业务过程为驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,即宽表化处理。同时,为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中,提高数据的可用性。
2.步骤
  • DWD层需构建维度模型,一般采用星型模型,呈现的状态一般为星座模型。 维度建模一般按照以下四个步骤: 选择业务过程→声明粒度→确认维度→确认事实

  • ① 选择业务过程

    在业务系统中,挑选我们感兴趣的业务线,比如下单业务,支付业务,退款业务,物流业务,一条业务线对应一张事实表。 如果是中小公司,尽量把所有业务过程都选择。 如果是大公司(1000多张表),选择和需求相关的业务线。

  • ② 声明粒度

    数据粒度指数据仓库的数据中保存数据的细化程度或综合程度的级别。 声明粒度意味着精确定义事实表中的一行数据表示什么,应该尽可能选择最小粒度,以此来应各种各样的需求

### 银行信贷风险控制数据仓库分层架构设计 #### 三层架构概述 银行信贷风控数据仓库采用典型的分层架构,旨在提高据处理效率并增强系统的可维护性和扩展性。该架构通常被划分为三个主要层次:原始据管理层(ODS),数据仓库层(DW),以及应用据管理层(ADM)[^2]。 #### 原始据管理层 (ODS) 作为最底层的据入口,ODS负责接收来自不同渠道的源系统据,并对其进行初步清洗和转换操作。此阶段不会对据进行复杂的加工或聚合计算,而是保持其接近于原始状态以便后续深入分析。对于银行信贷业务而言,这包括但不限于客户的交易记录、信用报告以及其他外部征信信息等[^3]。 #### 数据仓库层 (DW) ##### DWD - 据明细层 在这一层级上,基于ODS中的基础据构建详细的事实表与维度表,形成标准化的事实-维度模型。针对信贷风险管理需求特别关注借款人基本信息、贷款申请详情、还款历史等方面的据细节描述[DWD(Data Warehouse Detail)]。 ##### DWM - 中间汇总层 进一步提炼自DWD层的信息,在这里实现了更高程度上的抽象概括——即通过对特定时间段内同类事件的发生频率统计或是跨多个实体之间的关联关系挖掘等方式得到更为综合性的指标值。例如,月度逾期率趋势变化图谱可以帮助管理者更好地把握整体资产质量状况和发展态势[^4]。 ##### DWS - 应用服务层 最终面向各类前端应用程序提供经过高度精炼后的成品型据集。此类资源可以直接用于支持实时查询请求、生成定期报表亦或是训练预测算法模型等活动之中。特别是在信贷审批流程里发挥着至关重要的作用,因为它能够迅速响应前台提出的各种复杂多变的要求,从而保障决策制定过程既高效又精准[^5]。 #### 应用据管理层 (ADM) 处于顶层位置的应用据管理层专注于满足具体的业务应用场景下的特殊要求。它不仅包含了前面提到过的营销集市所依赖的客户画像体系,还有专门为应对潜在违约风险而设立的风险评分机制及其配套预警功能模块。这些高级别的据分析工具和服务共同构成了完整的信贷风控解决方案框架,确保金融机构能够在激烈的市场竞争环境中始终保持稳健的发展步伐[^1]。 ```sql -- SQL 示例:创建一个简单的视图来展示最近三个月内的新发放个人住房按揭贷款情况 CREATE VIEW Recent_Mortgage_Loans AS SELECT loan_id, customer_name, amount, start_date, end_date, interest_rate FROM loans WHERE product_type = 'Personal Mortgage' AND start_date >= DATE_SUB(CURRENT_DATE, INTERVAL 3 MONTH); ```
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值