Day01 数据仓库项目简介

原创已于 2022-03-11 20:30:55 修改 · 2.6k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据仓库 #big data #hadoop

于 2022-03-10 19:51:05 首次发布

Day01 数据仓库项目简介

文章目录

Day01 数据仓库项目简介

本次项目首先从一个数据采集项目然后才到数据仓库项目，首先打通数据采集的通道，也就是这个数据是怎么来的，或者说是怎么存到hdfs中的。在本次项目中，主要涉及到用户行为数据采集通道，业务数据采集通道，将两个数据通道中的数据存到hdfs中，方便后续的使用。

一、项目简介及需求

1. 数据仓库概念

（先跟大家讲一讲整个数仓，明白咱们要做个什么）

在数据仓库中，会对数据进行清洗，转义，分类，重组，合并，统计等等操作，数据仓库不是最终目的，而是为了最终目的做准备。数据仓库是为企业所有的决策提供支持，提供所有数据支持的战略集合。

2. 项目需求以及架构设计

（详细分析一下项目的具体设计）

项目需求

搭建用户行为数据采集平台
搭建业务数据采集平台
数据仓库维度建模（建库建表，根据业务需求，时间维度）(Hive)
分析，设备，会员，商品，地区，活动等电商的核心主题（指标）
采用即席查询工具，随时进行指标分析
对集群性能进行监控，发生异常会警报
元数据进行管理
质量监控

二、技术选型、框架选型、集群规模等

1. 项目技术如何选型？

注意技术选型主要的考虑因素：

数据量大小、业务需求、行业内经验、技术成熟度、维护成本、总成本预算

数据采集传输：Sqoop、flume、KafKa、LogStash、DataX

数据存储：MySQL、HDFS、HBase、MongoDB、Redis

数据计算：Hive，Tez，Spark，Flink，Strom

数据查询：Presto，Kylin，Impala、Druid

数据可视化: Echarts、Superset、QuickBI、DataV

任务调度：Azkaban、Oozie

集群监控: Zabbix

元数据管理：Atlas

2. 框架的版本如何选型（Apache/CDH/HDP）

Apache 运维比较麻烦，组件间的兼容性需要自行调研或是调整(一般大厂使用的，技术实力雄厚，也专业的运维人员)，开源。

CDH:国内使用最多的版本，但重要的内容是不开源的，一个节点是1万美金。

HDP：算是开源,可以进行二次开发，但是没有CDH稳定，国内少量使用。

CDH与HDP好基友版本：CDP

3. 服务器是使用物理机还是云主机

这个随意，看用途及财力等。

4. 确定一下集群的规模

计算方法：

每日活跃用户为100万人，每人每天平均产生100条数据，总数就是1亿条。

假如每条数据的大小为1kb，（100000000/1024/1024约等于100G）

三个副本数量的情况下：300G。

半年不更换的情况下：180天*300G约等于54T

预留百分之20到百分之30的空间，23.14T

也就是说，每台物理机8T的存储空间，都要10台

5. 数据生成模块

我们会生成一些假数据，不过该数据和真实的数据是一样的，暂时放一放。

6. 数据采集模块的搭建（集群搭建）

虚拟机安装（centos7.5）
配置jdk，hadoop
Hadoop的四大配置文件：
- core-site.xml
- Hdfs-site.xml
- Mapred-site.xml
- Yarn-site.xml
Hadoop的四大配置文件：
- core-site.xml
- Hdfs-site.xml
- Mapred-site.xml
- Yarn-site.xml

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。