大数据项目之电商数仓用户行为采集平台知识点总结 在这个大数据项目中,我们将构建一个电商数仓用户行为采集平台,旨在收集和分析用户行为数据,以提高电商平台的业务流程和产品质量。该平台将使用 Hadoop、HDFS、HBase、Redis、MongoDB 等技术来存储和处理大量数据,并使用 Flume、Kafka、Sqoop、Logstash、DataX 等工具来采集和传输数据。 数据仓库概念 数据仓库是一个战略集合,旨在为企业提供所有系统数据支持,以帮助企业改进业务流程、控制成本、提高产品质量等。数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备。这些准备包含对数据的清洗、转义、分类、重组、合并、拆分、统计等。 项目需求及架构设计 项目需求分析: * 用户行为数据采集平台搭建 * 业务数据采集平台搭建 * 数据仓库维度建模 * 分析用户、流量、会员、商品、销售、地区、活动等电商核心主题,统计的报表指标近 100 个 * 采用即席查询工具,随时进行指标分析 * 对集群性能进行监控,发生异常需要报警 * 元数据管理 * 质量监控 项目框架设计: * 技术选型:Flume、Kafka、Sqoop、Logstash、DataX 等工具来采集和传输数据 * 数据存储:HDFS、HBase、Redis、MongoDB 等技术来存储和处理大量数据 * 数据计算:Hive、Tez、Spark、Flink、Storm 等技术来计算和分析数据 * 数据查询:Presto、Druid、Impala、Kylin 等技术来查询和分析数据 * 数据可视化:Echarts、Superset、QuickBI、DataV 等技术来可视化数据 * 任务调度:Azkaban、Oozie 等技术来调度任务 * 集群监控:Zabbix 等技术来监控集群性能 * 元数据管理:Atlas 等技术来管理元数据 * 数据质量监控:Griffin 等技术来监控数据质量 服务器选型: * 物理机:以 128G 内存,20 核物理 CPU,40 线程,8THDD 和 2TSSD 硬盘,戴尔品牌单台报价 4W 出头 * 云主机:以阿里云为例,差不多相同配置,每年 5W 集群资源规划设计: * 集群规模:如果确认集群规模?(假设:每台服务器 8T 磁盘,128G 内存) * 测试集群服务器规划:服务名称、子服务、服务器 在这个大数据项目中,我们将使用 Apache/CDH/HDP 等技术来搭建电商数仓用户行为采集平台,并使用 Flume、Kafka、Sqoop、Logstash、DataX 等工具来采集和传输数据。同时,我们还将使用 HDFS、HBase、Redis、MongoDB 等技术来存储和处理大量数据,并使用 Hive、Tez、Spark、Flink、Storm 等技术来计算和分析数据。





















剩余63页未读,继续阅读


- 粉丝: 9934
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 基于AT89S52单片机的数字温度计设计.doc
- 2023年初级通信工程师考试试题及答案.doc
- 软件项目立项评审报告模版.doc
- 项目管理-系列2-3:配置管理实用手册vss.docx
- 家里怎么安装网络.pdf
- 工业机器人遥操作控制系统设计嵌入式伺服控制器设计样本.doc
- 精品课程网络教学资源和硬件环境.pdf
- 发电系统安全控制.doc
- 网络诈骗常见手段及防范对策.doc
- 计算机组成原理习题)(1)解析.doc
- 电子商务和税收筹划的关系是什么.doc
- 再生资源回收体系建设项目管理手册.doc
- 国家网络安全法考试试题与答案.pdf
- 软件测试实验报告.doc
- 数据库课程设计宾馆客房信息管理系统.doc
- 网络推广最高效率的方案.doc


