Spark大数据分析综合案例实战

最新推荐文章于 2025-06-09 23:27:37 发布

www.brain

最新推荐文章于 2025-06-09 23:27:37 发布

阅读量1.4k

点赞数 38

CC 4.0 BY-SA版权

文章标签： spark 数据分析大数据

本文链接：https://blog.csdn.net/2302_80153634/article/details/148255434

一、案例背景与需求分析

数据来源：
某电商平台2019年1月至9月的美妆商品订单数据，包含两个CSV文件：

beauty_prod_info.csv：商品信息（商品编号、名称、类别、价格等）。
beauty_prod_sales.csv：订单信息（订单编号、日期、客户信息、商品编号、订购数量、金额等）。

分析目标：

找出每个商品小类中价格最高的前5种商品。
统计每月的商品订购数量和消费金额。
按地区统计订购数量排名前20的城市。
分析各美妆商品的畅销程度。
统计各省份的美妆商品需求量。
基于RFM模型挖掘高价值客户。

二、数据清洗与预处理

工具：Pandas + Spark SQL
关键步骤：

缺失值处理：删除重复行、填充空值（如向后填充bfill和向前填充ffill）。
字段格式化：
- 订单日期：转换为datetime64类型，过滤异常日期（如未来日期）。
- 订购数量：去除单位“个”，转换为整数。
- 订购单价：去除单位“元”，转换为浮点数。
数据简化：清洗省份名称（如“浙江省”简化为“浙江”）。
数据保存：将清洗后的数据保存为新的CSV文件，供后续分析使用。

代码片段：

python

# 示例：处理订购数量字段
prod_sales['订购数量'] = prod_sales['订购数量'].apply(lambda x: x.strip('个') if isinstance(x, str) else x)
prod_sales['订购数量'] = prod_sales['订购数量'].astype('int64')

三、Spark SQL数据分析

核心操作：窗口函数、分组聚合、表连接。

TopN商品分析
使用窗口函数dense_rank()按商品小类分组，筛选价格最高的前5种商品：

sql
```
SELECT *, dense_rank() OVER (PARTITION BY cataB ORDER BY price DESC) AS rank 
FROM prod WHERE rank <= 5
```

月度统计
按月份分组，计算总订购数量和总金额：

sql

SELECT od_month, SUM(od_quantity) AS total_quantity, SUM(od_amount) AS total_amount 
FROM sales GROUP BY od_month

RFM客户价值分析
通过percent_rank()归一化最近购买时间（R）、消费频率（F）、总金额（M），加权计算客户得分：

python
```
df.withColumn('score', col('R')*0.2 + col('F')*0.3 + col('M')*0.5)
```

结果保存：将分析结果写入HDFS，便于后续可视化。

四、数据可视化

工具：Pyecharts
可视化案例：

月度订购趋势图
- 横轴：月份；纵轴：订购数量（万件）和金额（亿元）。
- 效果：双Y轴柱状图，直观展示销售趋势。
城市订购排名
- 横向柱状图显示订购量TOP20城市，数据标签显示具体数值。

代码片段：

python

# 月度订购柱状图
bar = Bar()
bar.add_xaxis(months)
bar.add_yaxis("订购数量（万件）", quantities)
bar.add_yaxis("金额（亿元）", amounts)
bar.render("month_sale.html")

五、实时流数据处理实例

场景：模拟手机通话记录实时处理
技术栈：Kafka + Spark Streaming
流程：

生产者：生成随机通话记录（主叫号码、通话时间等），发送至Kafka的Topic（按号码前缀分区）。
消费者：Spark Streaming从Kafka读取消息，计算通话时长，按接通时间的年月分类保存至HDFS。

关键代码：

python

# 处理通话记录
def process(x):
    _, record = x
    fields = record.split(',')
    call_time = datetime.strptime(fields[3], '%Y-%m-%d %H:%M:%S')
    ym = f"{call_time.year}{call_time.month:02d}"
    return (fields[0], fields[2], fields[3], fields[4], ym)

六、案例部署与集群运行

环境：Spark on YARN集群
步骤：

修改代码路径为HDFS地址，动态接收参数。

提交任务至YARN集群：

bash

spark-submit --master yarn --deploy-mode cluster main.py hdfs://vm01:9000/datas

通过YARN Web UI监控任务状态，验证结果文件是否生成。

结语

通过本案例，我们完整实践了Spark在离线数据处理和实时流计算中的应用，涵盖了数据清洗、SQL分析、可视化及集群部署等关键环节。读者可结合自身业务需求，灵活调整分析维度（如增加用户画像分析），进一步挖掘数据价值。

扩展思考：

如何优化窗口函数性能以应对更大规模数据？
实时流处理中如何保证Exactly-Once语义？