2301_81431185-CSDN博客

原创 Spark RDD的词频统计

4. 按单词聚合计数（reduceByKey聚合）# 2. 拆分单词（flatMap展平）# 5. 收集结果（action操作）

2025-06-10 15:00:00 191

原创 Spark RDD转换

3. intersection交集操作。6. reduceByKey聚合操作。4. subtract差集操作。5. groupBy分组操作。2. union合并操作。

2025-06-10 14:45:00 316

结果: [('Li',19,'2020'), ('Zhang',20,'2020'), ('Wang',22,'2019')]rdd_local2 = sc.textFile("/data/logs.txt") # 隐式本地路径。rdd_local = sc.textFile("file:///data/logs.txt") # 显式协议。rdd_multi = sc.textFile("/data/logs/*.gz") # 读取所有gz压缩文本。读取二进制格式（如图片）

2025-06-10 10:10:01 482

原创 Ubuntu安装pyspark

然后输入pyspark，输出应显示。版本和Python上下文。

2025-06-10 10:07:56 101

原创 Ubuntu安装Kafka

压缩包复制粘贴到Ubuntu里，路径自定义，这里我是放在Downloads下。

2025-06-10 10:07:22 212

原创 Ubuntu安装jupyter

若是可以 ~/.bashrc然后文末添加保存并退出（Ctrl + X → Y → Enter），然后重新加载。

2025-06-10 10:06:32 204

原创 Ubuntu安装MySQL

选择密码强度（推荐选2）。重新加载权限表（Y）。移除匿名用户（Y）。

2025-06-10 10:05:30 140

原创 rdd的转换行动操作

2025-06-10 10:04:43 93

原创 HDFS的配置

Java进程列表中应有NameNode、DataNode、SecondaryNameNode这三个程序在运行，就说明HDFS启动正常。的内容，这个文件中有运行DateNode进程的节点信息。这里配置的是单节点，里面默认就是localhost即本机，故不用任何修改。若没有NameNode可以尝试输入hdfs namenode -format后重新。然后sbin/start-dfs.sh启动HDFS服务程序。找到这里，将=后面的改成/usr/local/jdk。找到下图中的位置，补充完整。

2025-06-10 10:04:11 221

原创 YARN的配置

服务相关的程序，执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置，并改成图中变量。

2025-06-10 10:03:36 190

原创 Spark的安装配置

服务相关的程序，执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置，并改成图中变量。

2025-06-10 09:59:12 136

原创 Hadoop的安装

如果在version前加 - ，像java那样，就会报错。-version 被误认为是选项，但 Hadoop 并未定义该选项。将解压的hadoop-2.6.5目录的用户和组权限设一下，方便。我这里的用户名是shit，所以是shit:shit。的时候能够完全控制这个目录，避免因为文件的。然后 cd ~/soft。先将压缩包移到soft下。

2025-06-10 09:52:43 228

原创 Hadoop伪分布集群环境搭建

先在Home下创建一个soft文档用来放我们用到的压缩包。直接将压缩包复制进soft中。然后ESC，：wq保存并退出。

2025-06-10 09:50:25 93

原创 JDK 的安装配置

1）打开一个 Linux 终端，在其中执行以下命令，将 JDK 解压缩到/usr/local 目录中，1）切换到 Hadoop 的配置文件目录，先修改其中的 hadoop-env.sh 运行环境文件，找到。2）将解压的 hadoop-2.6.5 目录的用户和组权限设一下，方便启动 Hadoop 的时候能够。4）在本机通过 ssh 命令再次执行一下远程连接，测试一下是否能够免密登录，正常的。5）配置文件修改完毕，首次运行之前还要初始化 HDFS 的文件系统，相当于平时的磁盘。格式化操作，这个工作只执行一次。

2025-06-10 09:48:22 289