
数据仓库详细案例
文章平均质量分 87
开源整理项目整理所得,实际部署时,可供参考
一凡888
感觉要暴富
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
8.BASE使用指导
BASE使用指导1配置此套BASE平台为阿里将内部使用及公网BASE包装后输出的独立产品,依赖CDP、ODPS、PAI(尚未整合进来)。目前搭建在数梦四楼机房20号机柜,共5台服务器。这5台服务器仅安装了BASE的WEB应用与服务,及CDP,ODPS直接使用了DThink平台的系统。此BASE平台安装与部署目前由梦见山、鬼谷子、华佗维护。原创 2023-09-17 18:21:31 · 261 阅读 · 0 评论 -
7.数据仓库出ETL操作指导
按照这种情况,汇聚层作为后续流程的数据提供者,不对数据做任何的加工处理,而镜像层和主题层作为两个数据的需求者,需要根据各自对数据的使用目的进行相应的数据处理,然后存储在各自的表中,所以数据加工处理工作是在数据的需求方哪里完成的,即数据的清洗、转换和载入的任务是在主题层创建的,镜像层的数据载入任务是在镜像层创建的。数据装载分为主题层的数据装载和镜像层的数据装载,通常情况下主题层使用拉链表的形式存储数据,镜像层使用分区保存原始表的每日全量数据,所以两个区域的装载逻辑是不同的,下面分别介绍。原创 2023-09-17 18:17:25 · 420 阅读 · 0 评论 -
6.安全设计文档模板
【编写提示:考虑各操作系统的互联、注册表的修改,发布、升级、补丁包、下载,防止源代码泄漏的措施,如操作系统、数据库软件等版本标识的明确,安装部署时,对系统软件(尤其是操作系统和数据库)的默认配置项进行调整的,如何说明的。【编写提示:应用系统和数据库的超级用户密码是如何管理和维护的,密码存放是否经过加密处理,加密算法如何实现的,用户密码规则如何设计的,是否有强制或提醒用户更改密码措施,是否设计的动态密码及设计动态密码的优点】;【编写提示:日志记录是如何设计的,是否能够完整的记录修改前和修改后的状态。原创 2023-09-17 18:14:15 · 930 阅读 · 0 评论 -
05.数据仓库基础数据元规范模板
由于本标准中收录了工商行政管理业务中用到的所有基础数据元,因此,任何业务的变化都可能引起本标准中数据元的增加、修改或删除,因此需要指定专门的机构对本标准中所有的数据元进行动态维护和管理。如:在上面数据元“广告名称”中,“名称”是“广告名称”的表示词,由于表示词“名称”与特性词“名称”语义重复,因此删去一个“名称”。数据元名称是数据元的一个关键属性,因此在对每一个数据元命名时应采用统一的规则,来保证数据元名称的一致性和合理性。规则3:特性词是表示数据元所属对象类的显著的、有区别的特征。表示词应处于最后位置。原创 2023-09-17 18:12:47 · 495 阅读 · 0 评论 -
04.数据仓库数据规范模板
表示信息实体之间的聚合关系,即箭头指向的实体包含了其他实体,被包含的实体是箭头所指向实体的一个组成部分,比如一辆汽车包含发动机、车身、轮胎等。如:在上面数据元“广告名称”中,“名称”是“广告名称”的表示词,由于表示词“名称”与特性词“名称”语义重复,因此删去一个冗余词“名称”。” 表示信息实体之间的泛化关系,即箭头指向的实体是其他实体的父类,其他实体继承自箭头所指实体,因此具有该实体的全部属性。如:在数据元“企业类型代码”中,“企业”为对象词,“类型”是该数据元的特性词,“代码”是该数据元的表示词。原创 2023-09-17 18:10:20 · 598 阅读 · 0 评论 -
3.数据仓库需求分析指导
前台是MD架构对外的接口,包括两种主要的数据集市,一种是原子数据集市,另一种是聚集数据集市。对于企业数据仓库一致的维度(也叫做通用维度、标准或参考维度)是最基本的原则,在ETL系统中管理一次,然后在所有事实表中都可以重用,一致的维度在整个维度模型中可以获得一致的描述属性,可以支持从多个业务流程中整合数据,企业数据仓库总线矩阵是最关键的架构蓝图,它展现了组织的核心业务流程和关联的维度,重用一致的维度可以缩短产品的上市时间,也消除了冗余设计和开发过程,但一致的维度需要在数据管理和治理方面有较大的投入。原创 2023-09-17 18:06:39 · 227 阅读 · 0 评论 -
2.数据仓库需求分析指导
对于数据接口来讲,由于我们是建立其他业务系统之上,原有的业务系统开发商对我们有一种自然的抵触,因此,在与他们打交道的时候,最好是通过客户,即便是后期的问题交流也最好通过客户,这样做有两个好处:一是通过客户,我们和对方的为客户所做的工作可以向用户表明;3、 数据仓库是一个强调实用的平台,也是一个涉及面很广的系统,每天都有层出不穷的新技术和工具产生,作为数据人员,要关注这些新的技术和新的工具,了解它们的用处,它们能够解决的问题,从而在调研和培训时能够提出好的思路,能够非常容易的解决问题。原创 2023-09-17 18:04:52 · 370 阅读 · 0 评论 -
1.数据仓库模型设计规范
从数据的时间跨度来说,通常是DWD层的一部分,主要的目的是为了满足用户分析的需求,而从分析的角度来说,用户通常只需要分析近几年(如近三年的数据)的即可。同时也可以用于少量的、且对刷新时间不是非常敏感的指标统计需要,比如交易的关闭和发货,在当前事务型事实表不支持,且只有少量的统计指标,可以基于累计快照事实表计算。事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”。属于数据的公共层建设。周期快照事实表的粒度是每个时间段一条记录,通常比事务事实表的粒度要粗,是在事务事实表之上建立的聚集表。原创 2023-09-17 18:02:51 · 375 阅读 · 0 评论