Spark RDD的词频统计

CFMYJC

于 2025-06-09 23:36:56 发布

阅读量192

点赞数 3

CC 4.0 BY-SA版权

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CFMYJC/article/details/148545421

1. 完整实现流程
# 1. 读取文本文件
rdd1 = sc.textFile('file:///usr/local/spark/licenses/LICENSE-py4j.txt')

# 2. 拆分单词（flatMap展平）
rdd2 = rdd1.flatMap(lambda x: x.split(' '))

# 3. 映射为键值对（map转换）
rdd3 = rdd2.map(lambda x: (x, 1))

# 4. 按单词聚合计数（reduceByKey聚合）
rdd4 = rdd3.reduceByKey(lambda a,b: a+b)

# 5. 收集结果（action操作）
result = rdd4.collect()
for word, count in result:
print(f"{word}: {count}")

2. 数据处理流程解析
textFile：从文件系统创建RDD，每行文本作为一个元素

flatMap：将每行文本拆分为单词并展平

map：将每个单词转换为(word, 1)的键值对

reduceByKey：对相同单词的计数进行累加

collect：触发计算并收集结果

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。