【大数据技术栈】数据管理范畴常用大数据技术栈-CSDN博客

大数据技术栈通常分为四个核心层级：

数据采集层
负责多源异构数据的实时/批量采集
- 日志采集： $Fl u m e$ 、 $L o g s t a s h$
- 消息队列： $K a f ka$ 、 $R abbi tMQ$
- 数据库同步： $Sq oo p$ 、 $C ana l$
数据存储层
解决海量数据的分布式存储问题
$\text{（分布式文件系统）}$
$\text{数据库：} Cassandra, \ HBase$
$云存储：\ S3, \ Azure \ Blob$
数据处理层
实现批流融合计算
- 批处理： $\ (RDD/DataFrame)$ , $M a pR e d u ce$
- 流处理： $Fl ink$ , $St or m$ , $\ Streaming$
- SQL引擎： $H i v e$ , $I m p a l a$
数据应用层
支撑上层业务场景
$机器学习：\ Spark \ MLlib, \ TensorFlow$
$可视化：\ Tableau, \ Kibana$
$调度系统：\ Airflow, \ Azkaban$

技术发展遵循"存储→计算→智能"的三阶跃迁：

基础存储能级（2003-2010）
Google发布 $GFS$ （2003）和 $B i g t ab l e$ （2006）论文，奠定分布式存储理论基础。Hadoop实现开源化，解决 $PB$ 级数据存储瓶颈。
实时计算能级（2010-2016）
数据时效性需求催生Lambda架构：
$\text{批处理层} + \text{速度层} \rightarrow \text{服务层}$
Spark内存计算将批处理性能提升 $100×100\times$ ，Storm实现毫秒级延迟。
智能分析能级（2016至今）
云原生架构推动技术融合：
- 计算存储分离： $S n o w f l ak e$ 架构
- 批流一体： $\ Stateful \ Computing$
- AI融合： $\ on \ Spark$

场景	技术栈组合	吞吐量
实时风控	$K a f ka + Fl ink + R e d i s$	$\ events/s$
数仓建设	$H i v e + Sp a r k + HD FS$	$EB$ 级存储
用户画像	$Fl ink + Cl i c k Ho u se + T e n sor Fl o w$	千维特征实时计算