自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Spark RDD的词频统计

4. 按单词聚合计数(reduceByKey聚合)# 2. 拆分单词(flatMap展平)# 5. 收集结果(action操作)

2025-06-10 15:00:00 191

原创 Spark RDD转换

3. intersection交集操作。6. reduceByKey聚合操作。4. subtract差集操作。5. groupBy分组操作。2. union合并操作。

2025-06-10 14:45:00 316

原创 Spark RDD的创建与常用转换

结果: [('Li',19,'2020'), ('Zhang',20,'2020'), ('Wang',22,'2019')]rdd_local2 = sc.textFile("/data/logs.txt") # 隐式本地路径。rdd_local = sc.textFile("file:///data/logs.txt") # 显式协议。rdd_multi = sc.textFile("/data/logs/*.gz") # 读取所有gz压缩文本。读取二进制格式(如图片)

2025-06-10 10:10:01 482

原创 Ubuntu安装pyspark

然后输入pyspark,输出应显示。版本和Python上下文。

2025-06-10 10:07:56 101

原创 Ubuntu安装Kafka

压缩包复制粘贴到Ubuntu里,路径自定义,这里我是放在Downloads下。

2025-06-10 10:07:22 212

原创 Ubuntu安装jupyter

若是可以 ~/.bashrc然后文末添加保存并退出(Ctrl + X → Y → Enter),然后重新加载。

2025-06-10 10:06:32 204

原创 Ubuntu安装MySQL

选择密码强度(推荐选2)。重新加载权限表(Y)。移除匿名用户(Y)。

2025-06-10 10:05:30 140

原创 rdd的转换行动操作

2025-06-10 10:04:43 93

原创 HDFS的配置

Java进程列表中应有NameNode、DataNode、SecondaryNameNode这三个程序在运行,就说明HDFS启动正常。的内容,这个文件中有运行DateNode进程的节点信息。这里配置的是单节点,里面默认就是localhost即本机,故不用任何修改。若没有NameNode可以尝试输入hdfs namenode -format后重新。然后sbin/start-dfs.sh启动HDFS服务程序。找到这里,将=后面的改成/usr/local/jdk。找到下图中的位置,补充完整。

2025-06-10 10:04:11 221

原创 YARN的配置

服务相关的程序,执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置,并改成图中变量。

2025-06-10 10:03:36 190

原创 Spark的安装配置

服务相关的程序,执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置,并改成图中变量。

2025-06-10 09:59:12 136

原创 Hadoop的安装

如果在version前加 - ,像java那样,就会报错。-version 被误认为是选项,但 Hadoop 并未定义该选项。将解压的hadoop-2.6.5目录的用户和组权限设一下,方便。我这里的用户名是shit,所以是shit:shit。的时候能够完全控制这个目录,避免因为文件的。然后 cd ~/soft。先将压缩包移到soft下。

2025-06-10 09:52:43 228

原创 Hadoop伪分布集群环境搭建

先在Home下创建一个soft文档用来放我们用到的压缩包。直接将压缩包复制进soft中。然后ESC,:wq保存并退出。

2025-06-10 09:50:25 93

原创 JDK 的安装配置

1)打开一个 Linux 终端,在其中执行以下命令,将 JDK 解压缩到/usr/local 目录中,1)切换到 Hadoop 的配置文件目录,先修改其中的 hadoop-env.sh 运行环境文件,找到。2)将解压的 hadoop-2.6.5 目录的用户和组权限设一下,方便启动 Hadoop 的时候能够。4)在本机通过 ssh 命令再次执行一下远程连接,测试一下是否能够免密登录,正常的。5)配置文件修改完毕,首次运行之前还要初始化 HDFS 的文件系统,相当于平时的磁盘。格式化操作,这个工作只执行一次。

2025-06-10 09:48:22 289

原创 Vi 编辑器(Vi editor)

远程服务器,后面的 JDK、Hadoop、Spark 等软件的安装就是通过这样的方法上传到Ubuntu20.04 虚拟机的。个窗体列出了 MobaXterm 支持的各种远程连接类型,点击选择其中的第一项 SSH 图标,输入。在这个窗体中,勾选“Do。

2025-04-30 13:08:37 327

原创 Ubuntu 基本配置(Basical configuration for Ubuntu)

继续输入下面的命令来安装一下 vim,它是 vi 编辑器的增强版,比如支持用不同的颜色高亮代码的显示。一旦 vim 安装完毕,在 Linux 终端窗体输入 vi 或 vim 命令时,实际启动的就是这个 vim 增强版编辑器。输入下面的命令,将 Ubuntu20.04 自带的防火墙禁用掉,避免在远程终端连接时出现问题,包括运行 Hadoop 和 Spark 时也要禁用防火墙。1)打开一个 Linux 终端窗体,在其中输入下面的命令,先更新一下软件源信息并对当前已安装的软件进行升级。

2025-04-30 13:05:48 214

原创 虚拟机VMware的按照

Ubuntu20.04 操作系统的初始界面如图所示,第一次启动时会相继提示几个信息的设置,包括网络在线帐号设置、更新设置、问题提交、隐私设置等,直接点击右上角的“Skip”和“Next”,直至最后一个窗体点击“Done”全部完成。6)在指定磁盘容量窗体中,设定虚拟机使用的最大磁盘大小为 60GB,并选择“将虚拟磁盘存储为单个文件”,然后点击下一步。10)点击登录界面中列出来的 Linux 帐户“spark”,然后输入创建虚拟机时设定的密码“spark”,按。稍候几分钟的时间进行安装。

2025-04-30 13:04:43 539 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除