2401_84653595-CSDN博客

原创 rsync远程同步

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。在hadoop100中，添加新文件，5.txt, 6.txt, 7.txt。rsync和scp区别是：rsync只对差异文件做更新，它会在hadoop101上创建conf目录。，尽可能让拷贝的文件之间保持一致。目的地用户@主机:目的地路径/名称。scp是把所有文件都复制过去。，所以它的效果更高一些。要拷贝的文件路径/名称。下面我们去操作一下。hadoop101中。

2025-05-19 01:30:00 653

原创【无标题】

在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。中/opt/module目录下所有目录拷贝到hadoop10。下面，我们通过两个任务来一起看看拉取和搭桥。然后把这台机器上的文件传递到另一台机器上。我们上一节的例子的操作就是做的推送。上面的例子中，我们是登录到。上操作，将hadoop10。根据当前登录位置的不同，分析：使用scp进行拉取。分析：使用scp进行搭桥。登录hadoop101。

2025-05-19 00:15:00 255

原创 RDD的创建

可以通过将本地集合（如数组、列表等）传递给 SparkContext 的 parallelize。spark的计算功能是通过RDD来实现的，那么如何去创建RDD呢？方法来创建 RDD。例如，读入外部的文件。

2025-05-19 00:00:00 326

原创 scp命令--基本使用

这个两个软件，那我们要如何才能把对于的文件拷贝到。如果要拷贝的是文件夹，就把文件夹下的内容都拷贝。这台机器中已经安装了jdk和hadoop。可以实现服务器与服务器之间的数据拷贝。都已经创建好了/opt/module。目的地用户@主机:目的地路径/名称。/opt/software两个目录。要拷贝的文件路径/名称。2. 进入到hadoop10。

2025-05-18 01:30:00 399

原创转换算子（）

它的核心作用是对具有相同键的所有值进行聚合操作，通过用户提供的聚合函数将这些值合并成一个结果，从而实现数据的归约和统计。：对 RDD 中的每个元素应用给定的函数 f，将每个元素转换为另一个元素，最终返回一个新的 RDD。：筛选出 RDD 中满足函数 f 条件（即 f 函数返回 true）的元素，返回一个新的 RDD，新 RDD 中的元素类型与原 RDD 相同。：对 RDD 中的每个元素应用函数 f，函数 f 返回一个可遍历的集合，然后将这些集合中的元素扁平化合并成一个新的 RDD。

2025-05-18 00:15:00 534

原创 Spark基础介绍

在安装Spark时，它就提供了一些示例程序，我们可以直接来调用。进入到spark-local，运行命令spark-submit命令。这里的 \ 是换行输入的意思，整体的代码就只有一句，只不过太长了，我们把它拆开成几个部分来输入，其中\ 的意思就是这里写不下，写在下一行。接下来的操作，我们把它上传到集群中的节点，并解压运行。1.打开etc/profile.d/my_env.sh文件中，补充设置spark的环境变量。的值，具体运行效果如下。请注意，它并不会产生新的文件，而是直接在控制台输出结果。

2025-05-17 01:00:00 199

原创数据压缩，数据压缩

数据压缩可以分为有损压缩和无损压缩两类。即使你的MapReduce的输入输出文件都是未压缩的文件，你仍然可以对Map任务的中间结果输出做压缩，因为它要写在硬盘并且通过网络传输到Reduce节点，对其压缩可以提高很多性能，这些工作只要设置两个属性即可，我们来看下代码怎么设置。数据压缩是指在不丢失或尽可能少丢失数据信息的前提下，通过特定的算法和技术，对原始数据进行重新编码和处理，以减少数据存储空间或传输带宽的过程。，只需要在dirvier类的代码中，去设置在reduce端输出压缩开启，并设置压缩的方式即可。

2025-05-16 00:30:00 1669

原创三台设备之间无密登录

目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。hadoop101 无密登录 hadoop100,hadoop102 与(1)类似。hadoop102 无密登录 hadoop100,hadoop101 与(1)类似。hadoop100 无密登录hadoop101,hadoop102。在hadoop100中生成公钥和密码。

2025-05-15 00:30:00 210

原创配置Hadoop集群-免密登录

它的格式是： ssh-copy-id 目标机器。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。这里的id_rsa就是私钥，id_rsa.pub就是公钥。所以，对于hadoop100来说，它要生成公钥，并拷贝到hadoop100,接下来我们去具体看看.ssh相关的文件，以便更加深入的了解它的工作过程。（4）在hadoop100上，输入ssh hadoop101命令，例如：在hadoop100上，也需要去设置针对它自己的免密登录。

2025-05-14 04:30:00 429

原创上传小文件

上传文件的时候，我们传一个大一点的（>128M），再传一个小一点的。对于大一点的文件，我们要去看看它是否会按128M为单位去拆分这个大文件，而拆分成大文件之后，我们又怎么才能去还原？在我们上一节的hadoop配置中，我们设置了保持文件的目录是/data，所以，我们进入hadoop的按照目录下的data中去看一看。下面我们上传一个小文件，你可以自己去找一个文本文件，或者自己创建一个都可以。hadoop fs -put 要上传的文件目标位置。文件的名称是blk_xxx。上传文件后查看文件存放在什么位置。

2025-05-13 15:38:57 171

原创重置集群（有异常时）

重新启动hdfs, yarn。如果集群出现了异常，可以尝试如下操作（你将失去所有的数据，请谨慎）hdfs namenode -format。停止hdfs. stop-dfs.sh。hadoop安装目录下的。

2025-05-13 15:35:48 146

原创 xsync脚本集群之间的同步

假设名为xsync，给它指定一个参数，它的作用就是把这个位置的内容同步给其他的设备。#6. 获取当前文件的名称。重新查看它的颜色，它现在已经变成执行的脚本了（如上右图）。五台机器，我们在A上新增加了文件，那如何去同步到B，这个部分的代码不需要会写，能看懂，了解即可。把这个脚本同步到其他的机器中。把参数所对应的文件同步给所有的其他设备。放在环境变量中，可以在任何的地方都去调用。#3. 遍历所有目录，挨个发送。一个合适的思路是：写一个脚本。颜色是灰色的，不具备执行权限。D，E上相同的目录下呢？

2025-05-13 15:34:22 327

原创行动算子（知识）

行动算子是触发 Spark 计算的“触发点”，因为 Spark 的 RDD 是懒惰计算的，只有在执行行动算子时，才会真正开始计算。它会触发 Spark 作业的实际执行，对 RDD 中的所有元素进行计数，并将最终的计数结果返回给驱动程序。f: T => Unit：这是一个函数，它接收一个类型为 T 的元素（T 为 RDD 中元素的类型），并对该元素执行相应的操作，但不返回任何值（返回类型为 Unit）。返回值：返回一个包含 RDD 中所有元素的数组，数组元素的类型与 RDD 中元素的类型一致。

2025-05-13 14:31:16 536

原创 Spark集群搭建之Yarn模式（配置集群）

3.修改hadoop的配置。workers.tempalte 改成 workers,spark-env.sh.template 改成 spark-env.sh,使用xsync /opt/module/hadoop-3.1.3/etc/hadoop/同步一下。2. 修改一下spark的环境变量，/etc/profile.d/my_env.sh。同步给其他的设备: xsync /etc/profile.d/

2025-05-13 14:24:23 131

原创 Hadoop的目录结构和组成

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。在Hadoop3.X中，hadoop一共有四个组成部分：MapReduce计算，Yarn资源调度，HDFS数据存储，Common辅助工具。（4）Container: 容器，相当于一台独立的服务器，里面封装了任务运行时所需要的资源：如内存、cpu、磁盘、网络等等。（1）ResourceManager(RM):整个集群资源（内存，CPU等）的老大。

2025-05-13 07:45:00 344

原创命令说明（hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutp）

这是指定要运行的 Java JAR 文件的路径。3.1.3 是 Hadoop 的版本号，不同版本的 Hadoop，其示例 JAR 文件的版本号可能不同。这是指定要运行的具体示例程序名称。在 hadoop-mapreduce-examples-3.1.3.jar 中包含了多个示例程序，wordcount 是其中一个经典的 MapReduce 程序，用于统计输入文本中每个单词出现的次数。这是在 Hadoop 环境中用于启动 Java 程序（通常是 MapReduce 作业）的标准命令格式。

2025-05-13 05:00:00 351

原创安装Hadoop并运行WordCount程序

安装hadoop时，它自带了很多的示例代码，其中有一个是用来统计词频的程序，下面我们来看一下如何去运行这个示例代码。在任意目录下，运行 java -version，如果能看到以下结果，则代表Java安装成功。使用cd命令进入到opt/software目录，再使用ls命令，查看是否已经上传成功。使用的命令是： vi /etc/profile.d/my_env.sh。（1）新建/etc/profile.d/my_env.sh文件。打开/etc/profile.d/my_env.sh文件。注意，后面我们会按照。

2025-05-12 18:24:44 1140

原创 tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/这个代码的解释

6.-C /opt/module/：其中 -C 选项表示切换目录（change directory），后面跟着的 /opt/module/ 是指定解压后的文件存放的目标目录。这条命令的作用就是将 jdk-8u212-linux-x64.tar.gz 这个经过gzip压缩的 tar归档文件解压到 /opt/module/目录中，并在解压过程中显示详细信息。5. -f：指定要处理的归档文件名，后面跟着的 jdk-8u212-linux-x64.tar.gz 就是要解压的文件。

2025-05-12 18:19:46 493

原创克隆虚拟机组成集群

得到了hadoop101,hadoop102，由于它们是从hadoop100直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。例如进入hadoop100主机，使用 ping hadoop101来检查与hadoop101之间的连接是否正常。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。vm软件提供了克隆的功能，它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。配置IP的步骤是一样的。

2025-05-12 18:18:26 419

原创搭建大数据学习的平台

2025-05-12 18:15:15 290

原创 Spark目前支持的部署模式。

平台进行资源与任务的调度。自带的任务调度模式。组件进行资源与任务调。

2025-05-12 18:09:11 123

原创配置集群(yarn)

1.上传并解压spark-3.1.2-bin-hadoop3.2.tgz，重命名解压之后的目录为spark-yarn。对应的命令是：tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module。使用xsync /opt/module/hadoop-3.1.3/etc/hadoop/同步一下。

2025-05-12 11:10:57 242

原创 RDD的五大特征

按照“移动数据不如移动计算”的理念，Spark在进行任务调度时，会尽可能地将任务分配到其所要处理数据块的存储位置。RDD的每次转换都会生成一个新的RDD，所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。举个生活中的例子：高考的时候，每个班的同学都打散到不同的考场，此时的高3（8）班就是一个抽象的概念，在实际中，这个班级的学生可能分布在5个不同的考场。RDD的方法会作用在所有的分区上。

2025-05-12 11:07:04 645

原创 Spark集群搭建-Standalone

进入到hadoop100机器，切换目录到/opt/module/spark-standalone/sbin下，运行命令 ./start-all.sh。进入/opt/module/把解压的内容重命名一下，mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。注意，这里不要省略./,它表示的是当前目录下的start-all命令，如果省略了./，它就会先去环境变量PATH中指定的目录来找这个命令。11.查看启动效果。（linux，ip设置，能ping 百度），免密互联。

2025-05-12 11:04:18 413

原创解决VM虚拟机问题

2025-05-12 11:01:40 99

原创如何搭建spark yarn模式的集群

2025-04-28 20:03:52 108

原创如何在idea中写spark程序

2025-04-28 20:01:24 239

原创 spark和hadoop的区别与联系

Hadoop：主要依赖 MapReduce 模型，计算分 Map（映射）和 Reduce（归约）两个阶段，中间结果常需写入磁盘，磁盘 I/O 操作频繁，数据处理速度相对受限，不过适合大规模数据的稳定批处理。Spark：基于 RDD（弹性分布式数据集）抽象，提供更灵活多样的计算模型，支持多种操作，能充分利用内存进行计算，减少磁盘 I/O，在迭代计算等场景下效率优势明显，可快速完成复杂任务。Hadoop：因大量磁盘读写，尤其是处理复杂任务时多次磁盘数据交换，整体计算速度慢，处理海量数据时耗时较长。

2025-04-21 08:31:35 475

原创虚拟机配置IP

虚拟机配置IP

2025-03-03 19:35:07 86

原创 Vi 编辑器基本使用指南

在终端中，输入vi加上要编辑的文件名，如vi example.txt，如果example.txt存在，Vi 编辑器会打开该文件；若不存在，则会创建一个新的空文件并打开。如果只输入vi，则会进入一个空白的编辑界面，之后可以通过保存操作指定文件名。在命令模式下，可以使用各种命令来控制光标移动、进行文本删除、复制、粘贴等操作。在命令模式下，按下:键进入末行模式，此时光标会移动到屏幕的最后一行，等待输入命令。在命令模式下，通过特定按键进入输入模式，才能进行文本的输入。要从输入模式回到命令模式，只需按下Esc键。

2025-02-24 23:41:12 744

原创 Linux 常见命令全解析

复制单个文件时，格式为cp 源文件目标文件，如cp file1.txt /backup/，将file1.txt复制到/backup/目录。复制目录需要加上-r选项，递归复制目录及其内容，cp -r project /backup/。简单输入ls，会展示当前目录下的文件和目录列表。创建时还能指定主目录、所属组等，useradd -d /home/newuser -g users newuser。删除目录需使用rm -r 目录，rm -r oldproject，但要注意，删除操作不可逆，务必谨慎使用。

2025-02-24 23:39:21 987

空空如也

空空如也