自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Ubuntu安装Kafka

要先将kafka压缩包复制粘贴到Ubuntu里,路径自定义,这里我是放在Downloads下。

2025-06-09 23:43:08 121

原创 python3.6的安装

运行以下命令查看可安装的 Python 版本,如果输出中没有 python3.6,说明需要手动添加包含 Python 3.6 的软件源。Ubuntu 的默认软件源可能没有包含 Python 3.6 的安装包(尤其是较新的 Ubuntu 版本已移除了旧版 Python)1.添加deadsnakes PPA。2.添加python3.6。在spark中加入第三行。

2025-06-09 23:42:33 194

原创 Ubuntu安装MySQL

禁止root远程登录(Y)。选择密码强度(推荐选2)。移除测试数据库(Y)。重新加载权限表(Y)。移除匿名用户(Y)。

2025-06-09 23:41:59 153

原创 Ubuntu安装pyspark

然后输入pyspark,输出应显示Spark版本和Python上下文。

2025-06-09 23:41:00 130

原创 Ubuntu安装jupyter

若是可以然后文末添加保存并退出(Ctrl + X → Y → Enter),然后重新加载。

2025-06-09 23:40:28 135

原创 Spark RDD的创建与常用转换

从列表/元组创建RDDrdd_tuple = sc.parallelize(data_tuple) # 元组会被自动解包为列表分区数设置原则rdd = sc.parallelize(data_list, numSlices=4) # 显式指定4个分区print("分区数:", rdd.getNumPartitions()) # 输出: 4:分区数建议设为集群CPU核心数的2-4倍,避免过多分区导致调度开销默认使用哈希分区,大集合需确保数据均匀分布。

2025-06-09 23:39:53 1173

原创 Spark RDD的词频统计

textFile:从文件系统创建RDD,每行文本作为一个元素。# 4. 按单词聚合计数(reduceByKey聚合)map:将每个单词转换为(word, 1)的键值对。reduceByKey:对相同单词的计数进行累加。flatMap:将每行文本拆分为单词并展平。# 2. 拆分单词(flatMap展平)# 5. 收集结果(action操作)# 3. 映射为键值对(map转换)collect:触发计算并收集结果。# 1. 读取文本文件。2. 数据处理流程解析。

2025-06-09 23:36:56 192

原创 Spark RDD转换

3. intersection交集操作。6. reduceByKey聚合操作。7. sortByKey排序操作。1. distinct去重操作。4. subtract差集操作。5. groupBy分组操作。2. union合并操作。一、RDD转换操作详解。

2025-06-09 23:36:09 275

原创 rdd的转换行动操作

2025-06-09 23:35:26 95

原创 HDFS的配置

Java进程列表中应有NameNode、DataNode、SecondaryNameNode这三个程序在运行,就说明HDFS启动正常。的内容,这个文件中有运行DateNode进程的节点信息。这里配置的是单节点,里面默认就是localhost即本机,故不用任何修改。若没有NameNode可以尝试输入hdfs namenode -format后重新启动Hadoop和hdfs。然后sbin/start-dfs.sh启动HDFS服务程序。找到这里,将=后面的改成/usr/local/jdk。

2025-06-09 23:31:09 160

原创 YARN的配置

服务相关的程序,执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置,并改成图中变量。

2025-06-09 23:30:36 107

原创 Spark的安装配置

服务相关的程序,执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置,并改成图中变量。

2025-06-09 23:25:32 202

原创 Hadoop的安装

如果在version前加 - ,像java那样,就会报错。-version 被误认为是选项,但 Hadoop 并未定义该选项。的时候能够完全控制这个目录,避免因为文件的访问权限导致出现问题。将解压的hadoop-2.6.5目录的用户和组权限设一下,方便。我这里的用户名是shit,所以是shit:shit。这里和装jdk一样需要先将压缩包移到soft下。然后 cd ~/soft。然后输入spark的密码。

2025-06-09 23:05:59 303

原创 Hadoop伪分布集群环境搭建

这里的话需要先在Home下创建一个soft文档用来放我们用到的压缩包。直接将压缩包复制进soft中。然后ESC,:wq保存并退出。

2025-06-09 23:01:20 214

原创 3.Vi 编辑器(Vi editor)

远程服务器,后面的 JDK、Hadoop、Spark 等软件的安装就是通过这样的方法上传到Ubuntu20.04 虚拟机的。1)切换到 Hadoop 的配置文件目录,先修改其中的 hadoop-env.sh 运行环境文件,找到。

2025-06-09 05:00:00 2034 1

原创 2.Ubuntu 基本配置(Basical configuration for Ubuntu)

继续输入下面的命令来安装一下 vim,它是 vi 编辑器的增强版,比如支持用不同的颜色高亮代码的显示。一旦 vim 安装完毕,在 Linux 终端窗体输入 vi 或 vim 命令时,实际启动的就是这个 vim 增强版编辑器。输入下面的命令,将 Ubuntu20.04 自带的防火墙禁用掉,避免在远程终端连接时出现问题,包括运行 Hadoop 和 Spark 时也要禁用防火墙。1)打开一个 Linux 终端窗体,在其中输入下面的命令,先更新一下软件源信息并对当前已安装的软件进行升级。

2025-06-09 03:15:00 215

原创 虚拟机VMware的安装

Ubuntu20.04 操作系统的初始界面如图所示,第一次启动时会相继提示几个信息的设置,包括网络在线帐号设置、更新设置、问题提交、隐私设置等,直接点击右上角的“Skip”和“Next”,直至最后一个窗体点击“Done”全部完成。6)在指定磁盘容量窗体中,设定虚拟机使用的最大磁盘大小为 60GB,并选择“将虚拟磁盘存储为单个文件”,然后点击下一步。10)点击登录界面中列出来的 Linux 帐户“spark”,然后输入创建虚拟机时设定的密码“spark”,按。9)稍候几分钟的时间进行安装。

2025-06-08 22:56:51 1293

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除