CFMYJC-CSDN博客

原创 Ubuntu安装Kafka

要先将kafka压缩包复制粘贴到Ubuntu里，路径自定义，这里我是放在Downloads下。

2025-06-09 23:43:08 121

原创 python3.6的安装

运行以下命令查看可安装的 Python 版本，如果输出中没有 python3.6，说明需要手动添加包含 Python 3.6 的软件源。Ubuntu 的默认软件源可能没有包含 Python 3.6 的安装包（尤其是较新的 Ubuntu 版本已移除了旧版 Python）1.添加deadsnakes PPA。2.添加python3.6。在spark中加入第三行。

2025-06-09 23:42:33 194

原创 Ubuntu安装MySQL

禁止root远程登录（Y）。选择密码强度（推荐选2）。移除测试数据库（Y）。重新加载权限表（Y）。移除匿名用户（Y）。

2025-06-09 23:41:59 153

原创 Ubuntu安装pyspark

然后输入pyspark，输出应显示Spark版本和Python上下文。

2025-06-09 23:41:00 130

原创 Ubuntu安装jupyter

若是可以然后文末添加保存并退出（Ctrl + X → Y → Enter），然后重新加载。

2025-06-09 23:40:28 135

从列表/元组创建RDDrdd_tuple = sc.parallelize(data_tuple) # 元组会被自动解包为列表分区数设置原则rdd = sc.parallelize(data_list, numSlices=4) # 显式指定4个分区print("分区数:", rdd.getNumPartitions()) # 输出: 4：分区数建议设为集群CPU核心数的2-4倍，避免过多分区导致调度开销默认使用哈希分区，大集合需确保数据均匀分布。

2025-06-09 23:39:53 1173

原创 Spark RDD的词频统计

textFile：从文件系统创建RDD，每行文本作为一个元素。# 4. 按单词聚合计数（reduceByKey聚合）map：将每个单词转换为(word, 1)的键值对。reduceByKey：对相同单词的计数进行累加。flatMap：将每行文本拆分为单词并展平。# 2. 拆分单词（flatMap展平）# 5. 收集结果（action操作）# 3. 映射为键值对（map转换）collect：触发计算并收集结果。# 1. 读取文本文件。2. 数据处理流程解析。

2025-06-09 23:36:56 192

原创 Spark RDD转换

3. intersection交集操作。6. reduceByKey聚合操作。7. sortByKey排序操作。1. distinct去重操作。4. subtract差集操作。5. groupBy分组操作。2. union合并操作。一、RDD转换操作详解。

2025-06-09 23:36:09 275

原创 rdd的转换行动操作

2025-06-09 23:35:26 95

原创 HDFS的配置

Java进程列表中应有NameNode、DataNode、SecondaryNameNode这三个程序在运行，就说明HDFS启动正常。的内容，这个文件中有运行DateNode进程的节点信息。这里配置的是单节点，里面默认就是localhost即本机，故不用任何修改。若没有NameNode可以尝试输入hdfs namenode -format后重新启动Hadoop和hdfs。然后sbin/start-dfs.sh启动HDFS服务程序。找到这里，将=后面的改成/usr/local/jdk。

2025-06-09 23:31:09 160

原创 YARN的配置

服务相关的程序，执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置，并改成图中变量。

2025-06-09 23:30:36 107

原创 Spark的安装配置

服务相关的程序，执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置，并改成图中变量。

2025-06-09 23:25:32 202

原创 Hadoop的安装

如果在version前加 - ，像java那样，就会报错。-version 被误认为是选项，但 Hadoop 并未定义该选项。的时候能够完全控制这个目录，避免因为文件的访问权限导致出现问题。将解压的hadoop-2.6.5目录的用户和组权限设一下，方便。我这里的用户名是shit，所以是shit:shit。这里和装jdk一样需要先将压缩包移到soft下。然后 cd ~/soft。然后输入spark的密码。

2025-06-09 23:05:59 303

原创 Hadoop伪分布集群环境搭建

这里的话需要先在Home下创建一个soft文档用来放我们用到的压缩包。直接将压缩包复制进soft中。然后ESC，：wq保存并退出。

2025-06-09 23:01:20 214

原创 3.Vi 编辑器(Vi editor)

远程服务器，后面的 JDK、Hadoop、Spark 等软件的安装就是通过这样的方法上传到Ubuntu20.04 虚拟机的。1）切换到 Hadoop 的配置文件目录，先修改其中的 hadoop-env.sh 运行环境文件，找到。

2025-06-09 05:00:00 2034 1

原创 2.Ubuntu 基本配置(Basical configuration for Ubuntu)

继续输入下面的命令来安装一下 vim，它是 vi 编辑器的增强版，比如支持用不同的颜色高亮代码的显示。一旦 vim 安装完毕，在 Linux 终端窗体输入 vi 或 vim 命令时，实际启动的就是这个 vim 增强版编辑器。输入下面的命令，将 Ubuntu20.04 自带的防火墙禁用掉，避免在远程终端连接时出现问题，包括运行 Hadoop 和 Spark 时也要禁用防火墙。1）打开一个 Linux 终端窗体，在其中输入下面的命令，先更新一下软件源信息并对当前已安装的软件进行升级。

2025-06-09 03:15:00 215

原创虚拟机VMware的安装

Ubuntu20.04 操作系统的初始界面如图所示，第一次启动时会相继提示几个信息的设置，包括网络在线帐号设置、更新设置、问题提交、隐私设置等，直接点击右上角的“Skip”和“Next”，直至最后一个窗体点击“Done”全部完成。6）在指定磁盘容量窗体中，设定虚拟机使用的最大磁盘大小为 60GB，并选择“将虚拟磁盘存储为单个文件”，然后点击下一步。10）点击登录界面中列出来的 Linux 帐户“spark”，然后输入创建虚拟机时设定的密码“spark”，按。9）稍候几分钟的时间进行安装。

2025-06-08 22:56:51 1293