2023_Spark_实验九：编写WordCount程序（Scala版）

最新推荐文章于 2025-01-06 20:48:13 发布

pblh123

最新推荐文章于 2025-01-06 20:48:13 发布

阅读量1.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Spark实验 Scala 文章标签： spark scala 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pblh123/article/details/142577595

Spark实验同时被 2 个专栏收录

32 篇文章

订阅专栏

16 篇文章

订阅专栏

需求：

1、做某个文件的词频统计//某个单词在这个文件出现次数

步骤：

文件单词规律（空格分开）
单词切分
单词的统计（k,v）->(k:单词，V：数量）
打印

框架：

单例对象，main()
创建CONF
创建SC-->读取文件的方式--》RDD
RDD进行处理
闭资源关

一、新建object类取名为WordCount

2、编写如下代码

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
    def main(args: Array[String]): Unit = {
        System.setProperty("hadoop.home.dir","D:\\hadoop\\hadoop-2.8.0")
        val sparkConf= new SparkConf().setAppName("WordCount").setMaster("local") //设置为本地模式

        val sc = new SparkContext(sparkConf)
        sc.setLogLevel("WARN")
        val resultArray = sc.textFile(path = "file:///d:/temp/a.txt")
            .flatMap(_.split(" "))
            .map((_,1))
            .reduceByKey(_+_)
            .collect()
        resultArray.foreach(println )
        sc.stop()
    }

}

3、本地运行，查看运行结果如下：

解决无法下载spark与打包插件的办法

maven打包插件与spark所需依赖下载地址：

链接：百度网盘请输入提取码

提取码：jnta

解决步骤：

到网盘下载maven打包插件与spark依赖，网盘吗中的内容如下：

将下载的插件plugins.rar解压，并复制插件文件夹到你本地maven仓库下
将下载的spark依赖spark.rar解压，并复制spark文件夹到你本地maven仓库下
重启idea，重新build下工程

将下载的插件plugins.rar解压，并复制插件文件夹到你本地maven仓库下

将下载的spark依赖spark.rar解压，并复制spark文件夹到你本地maven仓库下

重启idea，重新build下工程

博客等级

码龄13年

153
原创

1364
点赞

1577
收藏

6260
粉丝

关注

私信

热门文章

分类专栏

Python 7篇
AI 1篇
比赛 1篇
Git 3篇
IDEA 7篇
Flink 11篇
Linux 11篇
Spark实验 32篇
Spark 15篇
PySpark 3篇
Centos7 4篇
Scala 16篇
MindSpore实践 21篇
MindSpore 25篇
可视化大屏 18篇
容器 1篇
工具使用 1篇
flume 2篇
Java 4篇
windows 1篇
WMware 1篇
RedHat 1篇
Hadoop 15篇
MySQL 2篇
数仓 1篇
SQL 3篇

展开全部收起

上一篇：: 2023_Spark_实验八：Scala高级特性实验

下一篇：: 2023_Spark_实验十：Centos_Spark Local模式部署

最新评论

ubuntu24.04部署单节点kafka_2.13-3.8.1
十二道苦味: # 启动zookeeper /usr/local/kafka_2.13-3.8.1$ ./bin/zookeeper-server-start.sh ./config/zookeeper.properties 这里是kafka目录，哪有zookeeper的脚本
2023_Spark_实验二十四：Kafka集群环境搭建
困意总是多: 【启动zookeeper和kafka时 kafka无法启动或者闪退 - CSDN App】https://blog.csdn.net/sis12e/article/details/130084397?sharetype=blog&shareId=130084397&sharerefer=APP&sharesource=m0_74412810&sharefrom=link 很有用，已解决kafka启动自动关闭问题
基于Scala开发Spark ML的ALS推荐模型实战
pblh123: 在 Spark 的机器学习中，如果某个用户的评分数据全部被划分到了测试集，在对这个用户进行推荐（transform）时，确实有可能出现 NaN 的情况。原因是当进行推荐计算时，如果没有该用户在训练集中的数据，模型可能无法准确预测该用户的偏好，从而导致结果出现缺失值（NaN）。为了避免这种情况，可以考虑以下方法： 1. 调整数据集划分策略，确保每个用户的部分数据在训练集中，以便模型能够学习到该用户的一些特征。 2. 使用更合适的推荐算法，一些算法可能对数据缺失有更好的处理方式。
基于Scala开发Spark ML的ALS推荐模型实战
Ocean_Hai22: 我有个问题想请教，如果划分数据集时，某个用户的评分数据全部都被划分到了测试集，当对这个用户进行推荐时(即transform那里)，你这里不会得到NaN吗？
昇思25天学习打卡营第9天|MindSpore-Vision Transformer图像分类
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619124193。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。