枕上书446-CSDN博客

现在我们可以通过finalshell这个工具来连接我们的远程服务器，不过我们连接主机的时候，需要填入对方的ip地址，这个很麻烦。hosts 文件是一个本地的文本文件，它的作用是将主机名（www.douyin.com）映射到对应的 IP 地址，在 DNS（域名系统）解析之前，系统会先查询 hosts 文件来确定目标主机的 IP 地址。Yum是一个linux工具，用来从网络下载安装软件到linux操作系统中，在此之前，我们先要确保虚拟机的网络是通畅的(ping www.baidu.com)。

2025-05-14 14:31:07 474

原创配置Hadoop集群-免密登录

所以，对于hadoop100来说，它要生成公钥，并拷贝到hadoop100, hadoop101, hadoop102上去。我们希望达成的目标是：希望用户在hadoop100登录到hadoop101时，hadoop101不需要输入密码。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。（4）在hadoop100上，输入ssh hadoop101命令，看看是否可以免密登录？例如：在hadoop100上，也需要去设置针对它自己的免密登录。

2025-05-14 14:30:25 323

原创 RDD案例-数据清洗

age.matches("\\d+") //返回值是一个boolean。//3.将过滤后的数据保存到文件中 saveAsTextFile()3.将过滤后的数据保存到文件中 saveAsTextFile()//1.读取数据，读入文本文件 sc.textFile()// 拆分出年龄 split(",")(1)（1）拆分出年龄 split(",")(1)//将所有的分区的数据合并成一个分区。// 判断年龄是否为数字，是，保留。//判断年龄是否为数字。//2.对于文件中的每一行。2.对于文件中的每一行。

2025-05-14 14:29:54 170

原创 Spark集群搭建之Yarn模式

进入/opt/module/spart-yarn/sbin，运行： ./start-all.sh 和 ./start-history-server.sh。在输入 echo $PATH回车，出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变。4.修改spark配置。

2025-05-14 14:29:18 345

原创 1分钟教你使用vm虚拟机

4.选择操作系统【Linux】===> 【CentOS-7 7 64 位】（我要创建的是CentOS-7，所以我选择CentOS-7，这里选择你要创建的系统就行了）===> 下一步。7.找到【CD/DVD 】点击使用ISO映像文件 ===> 浏览(选择自己下载的镜像文件，最后点击确定。5. 选择是否更改虚拟机的名字或位置。以下步骤，全部点击“下一步”3.选择“稍后安装操作系统”2.创建虚拟机，选择自定义。

2025-05-14 14:28:47 97

原创 Linux常用指令

mkdir -p dir1/dir2：递归创建。- touch: 创建空文件或更新文件时间戳。- head/tail: 查看文件开头/结尾。- more/less: 分页查看文件。- tail -f：实时查看日志。- mv: 移动或重命名文件/目录。- chown: 修改文件所有者。- chgrp: 修改文件所属组。- chmod: 修改文件权限。- rm -r：递归删除。- rm -f：强制删除。- cp -r：递归复制。ls -l：详细列表。- rm: 删除文件或目录。- cp: 复制文件或目录。

2025-05-14 14:27:53 206

原创 vi编辑器的使用方法

**末行模式（Last Line Mode）**：在命令模式下按 `:` 进入，用于执行保存、退出等操作。- **命令模式（Command Mode）**：默认模式，用于执行命令（如移动光标、删除文本等）。- **插入模式（Insert Mode）**：用于输入或编辑文本。- 在命令模式下，按 `p` 将复制的内容粘贴到当前行的下一行。- 在命令模式下，将光标移动到要删除的行，然后按 `dd`。第一次进入 `vi` 编辑器时，默认是**命令模式**。- 输入 `:wq` 或 `:x`：保存并退出。

2025-05-14 14:27:23 227

原创虚拟机IP配置

linux中，ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中，这里使用 vi 编辑器去修改即可！如果不进行设置，每次启动机器时都可能是随机的IP，不方便我们后续操作。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时，它们的网段都是一致的。（2）配置Windows本地虚拟网卡，让本机也可以访问虚拟机。具体设置为：进入虚拟机，修改对应的IP。（3）设置虚拟机的IP。

2025-05-14 14:26:53 248

原创一分钟教你数据清洗

它是指对采集到的原始数据进行预处理，以去除错误、重复、不完整或不一致的数据，使数据符合分析要求的过程。对于reduce函数来说，它的输入参数是：<刷选后的每一行的内容，[null,null,...]>，对于我们的需求来说，并不需要这个阶段。map阶段：按行读入内容，对内容进行检查，如果字段的个数少于等于11，就删除这条日志（不保留）去除日志中字段个数小于等于11的日志内容。//这里是你创建的包名，要修改为你的包名。<偏移量，每一行的内容> → <刷选后的没一行的内容，null>// 4 设置最终输出类型。

2025-05-14 14:26:22 343

原创 hadoop的常用指令

任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目录拷贝到hadoop102上。在hadoop100的/opt/conf/ 新建1.txt, 2.txt, 3.txt, 4.txt。现在的目标是：要把hadoop100上的jdk文件夹拷贝到hadoop101中的相同的目录下。（3）$pdir/$fname: 要拷贝的文件路径/名称。

2025-05-14 14:25:23 300

原创 mapreduce工作原理

它的核心思想是将一个复杂的计算任务分解为多个简单的任务（Map 和 Reduce），并在分布式集群上并行执行。这是 MapReduce 的核心阶段，负责将 Map 阶段的输出传输到 Reduce 任务。总结来说，MapReduce 是一种强大的分布式计算模型，特别适合大规模数据的批处理任务。Shuffle：将 Map 任务生成的中间键值对按照键分发到不同的 Reduce 任务。每个 Reduce 任务接收一组键值对（相同键的值被分组在一起）。Sort：对每个键的值进行排序，确保相同键的值被分组在一起。

2025-05-14 14:24:52 336

原创配置HADOOP_HOME环境变量和maven_HOME环境变量

注意：变量值要“浏览目录”选择你存放hadoop的文件和maven的文件。5.在“系统变量”里双击Path”，在里面新建两个变量。4.在“系统变量”下新建两个系统变量。1.右击此电脑，选择“属性”2.选择“高级系统配置”3.选择“环境变量”

2025-05-14 14:24:22 87

原创 spark和Hadoop之间的对比和联系

定位：分布式存储与离线批处理的基础框架，核心组件包括HDFS（存储）和MapReduce（计算），适合海量数据的低成本存储及离线处理（如日志分析、ETL）。架构特点：通过DAG（有向无环图）优化任务调度，减少磁盘I/O，速度通常比Hadoop快10-100倍，适合实时或迭代计算（如机器学习、图计算）。定位：专注于高效计算的分布式引擎，支持批处理、实时流处理、机器学习等多场景，核心基于内存计算和弹性分布式数据集（RDD）。选择Spark：若涉及实时计算、机器学习等复杂场景，需高性能和灵活性。

2025-05-14 14:23:51 267

原创配置spark

然后tar -zxvf 你的spark安装包的完整名字 -C /opt/module，进行解压。例如我的spark完整名字是spark-3.1.1-bin-hadoop3.2.tgz，所以我要输入的命令是。在输入 echo $PATH回车，出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变量了。自己新建一个存放修改spark环境变量的文件，例如我的是my_env.sh，在里面添加配置的内容。2.配置spark的环境变量。

2025-05-14 14:23:20 154

原创配置spark

然后tar -zxvf 你的spark安装包的完整名字 -C /opt/module，进行解压。在输入 echo $PATH回车，出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变量了。保存修改，回到输入命令界面，输入source /etc/profile,重新刷新环境变量，让修改的环境变量生效。自己新建一个存放修改spark环境变量的文件，例如我的是my_env.sh，在里面添加配置的内容。2.配置spark的环境变量。

2025-05-13 10:05:16 192

原创 Spark集群搭建之Yarn模式

进入/opt/module/spart-yarn/sbin，运行： ./start-all.sh 和 ./start-history-server.sh。在输入 echo $PATH回车，出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变。4.修改spark配置。

2025-05-13 10:04:46 295

原创 RDD算子-转换算子Map

4.reduceByKey:键值对的数据(word,1),(hell,1)3.flatMap：flat(扁平化) + map(映射)

2025-05-13 10:03:37 131

原创 RDD算子-行动算子

【代码】RDD算子-行动算子。

2025-05-13 10:02:47 224

原创 RDD算子

【代码】RDD算子。

2025-05-13 09:21:50 88

原创 spark-shell中写代码

通过 SparkConf 类，你可以设置应用程序的名称、运行模式（如本地模式、集群模式）、资源分配（如内存、CPU 核心数）等。Resilient Distributed Dataset 叫做弹性分布式数据集，是Spark中最基本的数据抽象，是分布式计算的实现载体，代表一个不可变，可分区，里面的元素并行计算的集合。- Distributed: 分布式存储的，表示数据是存放在不同的机器上的。不可变的：immutable。并行计算：集合中的数据可以被并行的计算处理，每个分区数据被一个Task任务处理。

2025-05-13 09:20:57 251

原创配置Hadoop集群-免密登录

所以，对于hadoop100来说，它要生成公钥，并拷贝到hadoop100, hadoop101, hadoop102上去。我们希望达成的目标是：希望用户在hadoop100登录到hadoop101时，hadoop101不需要输入密码。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。（4）在hadoop100上，输入ssh hadoop101命令，看看是否可以免密登录？例如：在hadoop100上，也需要去设置针对它自己的免密登录。

2025-05-13 09:20:27 433

原创 vi编辑器

命令模式：在这个模式下，所敲的按键编辑器都理解为命令，以命令来驱动执行不同的功能。当我们通过VI命令第一次打开文件的时候，进入的就是命令模式。具体来说yy（两个小y）复制光标所在行的内容，nyy（n+两个小y）复制当前行往下n行内容，例如3yy就是复制三行。vi编辑器有三种工作模式，分别是命令模式，编辑模式，底线模式。（2）按下o：进入到编辑输入模式后，在当前行的后面添加一行空行（当前行的下一行）学习它的最大的挑战是：万物皆命令。它是linux的内置命令，所以还是以命令的方式来运行。

2025-05-13 09:19:53 145

原创配置hosts

现在我们可以通过finalshell这个工具来连接我们的远程服务器，不过我们连接主机的时候，需要填入对方的ip地址，这个很麻烦。hosts 文件是一个本地的文本文件，它的作用是将主机名（www.douyin.com）映射到对应的 IP 地址，在 DNS（域名系统）解析之前，系统会先查询 hosts 文件来确定目标主机的 IP 地址。Yum是一个linux工具，用来从网络下载安装软件到linux操作系统中，在此之前，我们先要确保虚拟机的网络是通畅的(ping www.baidu.com)。

2025-05-13 09:19:22 863

原创克隆虚拟机组成集群

在随后的设置中，请注意两点：（1）要给其他两台虚拟机取不同的名字。要注意，这里是虚拟机的名称，而不是它的hostname。克隆之后，我们得到了hadoop101,hadoop102，由于它们是从hadoop100直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。vm软件提供了克隆的功能，它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。

2025-05-13 09:18:47 206

原创配置Hadoop集群-集群配置

对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来保存文件，可以使用提供强大的计算能力。（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。刚才我们是在hadoop100这台机器上进行了正确的设置，但是，其他的2台机器也要做相同的配置。接下来配置第二个文件，/opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml。

2025-05-13 09:18:17 1153

原创配置Hadoop集群-测试使用

这个存储的目录特别深，大概类似于：/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0。上传文件的时候，我们传一个大一点的（>128M），再传一个小一点的。在我们上一节的hadoop配置中，我们设置了保持文件的目录是/data，所以，我们进入hadoop的按照目录下的data中去看一看。文件的名称是blk_xxx。

2025-05-13 09:17:17 317

原创配置Hadoop集群-配置历史和日志服务

echo " --------------- 启动 historyserver ---------------"echo " --------------- 关闭 historyserver ---------------"echo " --------------- 启动 hdfs ---------------"echo " --------------- 启动 yarn ---------------"echo " --------------- 关闭 yarn ---------------"

2025-05-13 09:16:46 1516

原创 Spark缓存

当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。MEMORY_ONLY_SER：将 RDD 以序列化的 Java 对象形式存储在内存中，相较于 MEMORY_ONLY，序列化后占用的内存空间更小，但读取时需要进行反序列化操作，会带来一定的性能开销。RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的行动算子时，该RDD将会被缓存在计算节点的内存中，并供以后重用。

2025-05-13 09:15:49 309

原创转换算子和行动算子的区别

例如：collect、count、reduce、foreach、saveAsTextFile等135。例如：map、filter、flatMap、groupByKey、sortBy（部分场景）等135。行动算子：返回非RDD结果（如数值、列表、字符串等），甚至无返回（如写入存储）245。特点：立即执行，返回具体值（如数值、集合等）或无返回（如保存数据）45。行动算子：触发整个计算链路的执行，包括之前所有的转换操作34。行动算子：直接触发作业提交，执行所有前置转换操作34。转换算子：返回新的RDD134。

2025-05-13 09:14:05 135

原创如何在idea中写spark程序

通过以上步骤，你可以在 IntelliJ IDEA 中高效地编写、调试和部署 Spark 程序。在类中编写 Spark 程序代码。如果你的 Spark 程序需要连接到远程 Spark 集群，需要配置环境变量。在 IntelliJ IDEA 中，可以设置断点并使用调试模式运行程序。Maven 是一个强大的项目管理和构建工具，用于管理项目依赖。使用 Spark 的性能调优工具，如 Spark UI（访问。如果一切配置正确，程序将在本地运行，并输出 π 的近似值。模式运行程序，但在生产环境中需要切换到集群模式。

2025-04-28 20:01:17 599

原创如何搭建spark yarn模式的集群

通过以上步骤，您就可以成功搭建一个 Spark on YARN 模式的集群。如果遇到权限问题，可以尝试调整 HDFS 和 Spark 目录的权限。：确保集群中的所有节点能够互相通信，主机名和 IP 地址需正确配置。下载预编译的 Spark 包，选择与 Hadoop 版本兼容的版本。：确保安装了 JDK 1.8 或以上版本。如果集群中有防火墙，需要开放相关端口。：编辑 Hadoop 的。文件，配置 HDFS。文件，配置 YARN。确保所有节点的时钟同步。文件分发到所有节点。，查看作业运行状态。

2025-04-28 19:59:43 853 1

2503_91871184的博客

原创 RDD-自定义分区器

原创配置hosts

原创配置Hadoop集群-免密登录

原创 RDD案例-数据清洗

原创 Spark集群搭建之Yarn模式

原创 1分钟教你使用vm虚拟机

原创 Linux常用指令

原创 vi编辑器的使用方法

原创虚拟机IP配置

原创一分钟教你数据清洗

原创 hadoop的常用指令

原创 mapreduce工作原理

原创配置HADOOP_HOME环境变量和maven_HOME环境变量

原创 spark和Hadoop之间的对比和联系

原创配置spark

原创配置spark

原创 Spark集群搭建之Yarn模式

原创 RDD算子-转换算子Map

原创 RDD算子-行动算子

原创 RDD算子

原创 spark-shell中写代码

原创配置Hadoop集群-免密登录

原创 vi编辑器

原创配置hosts

原创克隆虚拟机组成集群

原创配置Hadoop集群-集群配置

原创配置Hadoop集群-测试使用

原创配置Hadoop集群-配置历史和日志服务

原创 Spark缓存

原创转换算子和行动算子的区别

原创如何在idea中写spark程序

原创如何搭建spark yarn模式的集群

空空如也

空空如也