- 博客(17)
- 收藏
- 关注
原创 python3.6的安装
运行以下命令查看可安装的 Python 版本,如果输出中没有 python3.6,说明需要手动添加包含 Python 3.6 的软件源。Ubuntu 的默认软件源可能没有包含 Python 3.6 的安装包(尤其是较新的 Ubuntu 版本已移除了旧版 Python)1.添加deadsnakes PPA。2.添加python3.6。在spark中加入第三行。
2025-06-09 23:42:33
194
原创 Ubuntu安装MySQL
禁止root远程登录(Y)。选择密码强度(推荐选2)。移除测试数据库(Y)。重新加载权限表(Y)。移除匿名用户(Y)。
2025-06-09 23:41:59
153
原创 Spark RDD的创建与常用转换
从列表/元组创建RDDrdd_tuple = sc.parallelize(data_tuple) # 元组会被自动解包为列表分区数设置原则rdd = sc.parallelize(data_list, numSlices=4) # 显式指定4个分区print("分区数:", rdd.getNumPartitions()) # 输出: 4:分区数建议设为集群CPU核心数的2-4倍,避免过多分区导致调度开销默认使用哈希分区,大集合需确保数据均匀分布。
2025-06-09 23:39:53
1173
原创 Spark RDD的词频统计
textFile:从文件系统创建RDD,每行文本作为一个元素。# 4. 按单词聚合计数(reduceByKey聚合)map:将每个单词转换为(word, 1)的键值对。reduceByKey:对相同单词的计数进行累加。flatMap:将每行文本拆分为单词并展平。# 2. 拆分单词(flatMap展平)# 5. 收集结果(action操作)# 3. 映射为键值对(map转换)collect:触发计算并收集结果。# 1. 读取文本文件。2. 数据处理流程解析。
2025-06-09 23:36:56
192
原创 Spark RDD转换
3. intersection交集操作。6. reduceByKey聚合操作。7. sortByKey排序操作。1. distinct去重操作。4. subtract差集操作。5. groupBy分组操作。2. union合并操作。一、RDD转换操作详解。
2025-06-09 23:36:09
275
原创 HDFS的配置
Java进程列表中应有NameNode、DataNode、SecondaryNameNode这三个程序在运行,就说明HDFS启动正常。的内容,这个文件中有运行DateNode进程的节点信息。这里配置的是单节点,里面默认就是localhost即本机,故不用任何修改。若没有NameNode可以尝试输入hdfs namenode -format后重新启动Hadoop和hdfs。然后sbin/start-dfs.sh启动HDFS服务程序。找到这里,将=后面的改成/usr/local/jdk。
2025-06-09 23:31:09
160
原创 YARN的配置
服务相关的程序,执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置,并改成图中变量。
2025-06-09 23:30:36
107
原创 Spark的安装配置
服务相关的程序,执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置,并改成图中变量。
2025-06-09 23:25:32
202
原创 Hadoop的安装
如果在version前加 - ,像java那样,就会报错。-version 被误认为是选项,但 Hadoop 并未定义该选项。的时候能够完全控制这个目录,避免因为文件的访问权限导致出现问题。将解压的hadoop-2.6.5目录的用户和组权限设一下,方便。我这里的用户名是shit,所以是shit:shit。这里和装jdk一样需要先将压缩包移到soft下。然后 cd ~/soft。然后输入spark的密码。
2025-06-09 23:05:59
303
原创 Hadoop伪分布集群环境搭建
这里的话需要先在Home下创建一个soft文档用来放我们用到的压缩包。直接将压缩包复制进soft中。然后ESC,:wq保存并退出。
2025-06-09 23:01:20
214
原创 3.Vi 编辑器(Vi editor)
远程服务器,后面的 JDK、Hadoop、Spark 等软件的安装就是通过这样的方法上传到Ubuntu20.04 虚拟机的。1)切换到 Hadoop 的配置文件目录,先修改其中的 hadoop-env.sh 运行环境文件,找到。
2025-06-09 05:00:00
2034
1
原创 2.Ubuntu 基本配置(Basical configuration for Ubuntu)
继续输入下面的命令来安装一下 vim,它是 vi 编辑器的增强版,比如支持用不同的颜色高亮代码的显示。一旦 vim 安装完毕,在 Linux 终端窗体输入 vi 或 vim 命令时,实际启动的就是这个 vim 增强版编辑器。输入下面的命令,将 Ubuntu20.04 自带的防火墙禁用掉,避免在远程终端连接时出现问题,包括运行 Hadoop 和 Spark 时也要禁用防火墙。1)打开一个 Linux 终端窗体,在其中输入下面的命令,先更新一下软件源信息并对当前已安装的软件进行升级。
2025-06-09 03:15:00
215
原创 虚拟机VMware的安装
Ubuntu20.04 操作系统的初始界面如图所示,第一次启动时会相继提示几个信息的设置,包括网络在线帐号设置、更新设置、问题提交、隐私设置等,直接点击右上角的“Skip”和“Next”,直至最后一个窗体点击“Done”全部完成。6)在指定磁盘容量窗体中,设定虚拟机使用的最大磁盘大小为 60GB,并选择“将虚拟磁盘存储为单个文件”,然后点击下一步。10)点击登录界面中列出来的 Linux 帐户“spark”,然后输入创建虚拟机时设定的密码“spark”,按。9)稍候几分钟的时间进行安装。
2025-06-08 22:56:51
1293
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人