- 博客(73)
- 收藏
- 关注
原创 rsync远程同步
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。在hadoop100中,添加新文件,5.txt, 6.txt, 7.txt。rsync和scp区别是:rsync只对差异文件做更新,它会在hadoop101上创建conf目录。,尽可能让拷贝的文件之间保持一致。目的地用户@主机:目的地路径/名称。scp是把所有文件都复制过去。,所以它的效果更高一些。要拷贝的文件路径/名称。下面我们去操作一下。hadoop101中。
2025-05-19 01:30:00
653
原创 【无标题】
在hadoop102上,将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。中/opt/module目录下所有目录拷贝到hadoop10。下面,我们通过两个任务来一起看看拉取和搭桥。然后把这台机器上的文件传递到另一台机器上。我们上一节的例子的操作就是做的推送。上面的例子中,我们是登录到。上操作,将hadoop10。根据当前登录位置的不同,分析:使用scp进行拉取。分析:使用scp进行搭桥。登录hadoop101。
2025-05-19 00:15:00
255
原创 RDD的创建
可以通过将本地集合(如数组、列表等)传递给 SparkContext 的 parallelize。spark的计算功能是通过RDD来实现的,那么如何去创建RDD呢?方法来创建 RDD。例如,读入外部的文件。
2025-05-19 00:00:00
326
原创 scp命令--基本使用
这个两个软件,那我们要如何才能把对于的文件拷贝到。如果要拷贝的是文件夹,就把文件夹下的内容都拷贝。这台机器中已经安装了jdk和hadoop。可以实现服务器与服务器之间的数据拷贝。都已经创建好了/opt/module。目的地用户@主机:目的地路径/名称。/opt/software两个目录。要拷贝的文件路径/名称。2. 进入到hadoop10。
2025-05-18 01:30:00
399
原创 转换算子()
它的核心作用是对具有相同键的所有值进行聚合操作,通过用户提供的聚合函数将这些值合并成一个结果,从而实现数据的归约和统计。:对 RDD 中的每个元素应用给定的函数 f,将每个元素转换为另一个元素,最终返回一个新的 RDD。:筛选出 RDD 中满足函数 f 条件(即 f 函数返回 true)的元素,返回一个新的 RDD,新 RDD 中的元素类型与原 RDD 相同。:对 RDD 中的每个元素应用函数 f,函数 f 返回一个可遍历的集合,然后将这些集合中的元素扁平化合并成一个新的 RDD。
2025-05-18 00:15:00
534
原创 Spark基础介绍
在安装Spark时,它就提供了一些示例程序,我们可以直接来调用。进入到spark-local,运行命令spark-submit命令。这里的 \ 是换行输入的意思,整体的代码就只有一句,只不过太长了,我们把它拆开成几个部分来输入,其中\ 的意思就是这里写不下,写在下一行。接下来的操作,我们把它上传到集群中的节点,并解压运行。1.打开etc/profile.d/my_env.sh文件中,补充设置spark的环境变量。的值,具体运行效果如下。请注意,它并不会产生新的文件,而是直接在控制台输出结果。
2025-05-17 01:00:00
199
原创 数据压缩,数据压缩
数据压缩可以分为有损压缩和无损压缩两类。即使你的MapReduce的输入输出文件都是未压缩的文件,你仍然可以对Map任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能,这些工作只要设置两个属性即可,我们来看下代码怎么设置。数据压缩是指在不丢失或尽可能少丢失数据信息的前提下,通过特定的算法和技术,对原始数据进行重新编码和处理,以减少数据存储空间或传输带宽的过程。,只需要在dirvier类的代码中,去设置在reduce端输出压缩开启,并设置压缩的方式即可。
2025-05-16 00:30:00
1669
原创 三台设备之间无密登录
目标:hadoop100通过ssh访问hadoop101,hadoop102时不需要密码,其他两台设备也类似。hadoop101 无密登录 hadoop100,hadoop102 与(1)类似。hadoop102 无密登录 hadoop100,hadoop101 与(1)类似。hadoop100 无密登录hadoop101,hadoop102。在hadoop100中生成公钥和密码。
2025-05-15 00:30:00
210
原创 配置Hadoop集群-免密登录
它的格式是: ssh-copy-id 目标机器。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。这里的id_rsa就是私钥,id_rsa.pub就是公钥。所以,对于hadoop100来说,它要生成公钥,并拷贝到hadoop100,接下来我们去具体看看.ssh相关的文件,以便更加深入的了解它的工作过程。(4)在hadoop100上,输入ssh hadoop101命令,例如: 在hadoop100上,也需要去设置针对它自己的免密登录。
2025-05-14 04:30:00
429
原创 上传小文件
上传文件的时候,我们传一个大一点的(>128M),再传一个小一点的。对于大一点的文件,我们要去看看它是否会按128M为单位去拆分这个大文件,而拆分成大文件之后,我们又怎么才能去还原?在我们上一节的hadoop配置中,我们设置了保持文件的目录是/data,所以,我们进入hadoop的按照目录下的data中去看一看。下面我们上传一个小文件,你可以自己去找一个文本文件,或者自己创建一个都可以。hadoop fs -put 要上传的文件 目标位置。文件的名称是blk_xxx。上传文件后查看文件存放在什么位置。
2025-05-13 15:38:57
171
原创 重置集群(有异常时)
重新启动hdfs, yarn。如果集群出现了异常,可以尝试如下操作(你将失去所有的数据,请谨慎)hdfs namenode -format。停止hdfs. stop-dfs.sh。hadoop安装目录下的。
2025-05-13 15:35:48
146
原创 xsync脚本集群之间的同步
假设名为xsync,给它指定一个参数,它的作用就是把这个位置的内容同步给其他的设备。#6. 获取当前文件的名称。重新查看它的颜色,它现在已经变成执行的脚本了(如上右图)。五台机器,我们在A上新增加了文件,那如何去同步到B,这个部分的代码不需要会写,能看懂,了解即可。把这个脚本同步到其他的机器中。把参数所对应的文件同步给所有的其他设备。放在环境变量中,可以在任何的地方都去调用。#3. 遍历所有目录,挨个发送。一个合适的思路是:写一个脚本。颜色是灰色的,不具备执行权限。D,E上相同的目录下呢?
2025-05-13 15:34:22
327
原创 行动算子(知识)
行动算子是触发 Spark 计算的“触发点”,因为 Spark 的 RDD 是懒惰计算的,只有在执行行动算子时,才会真正开始计算。它会触发 Spark 作业的实际执行,对 RDD 中的所有元素进行计数,并将最终的计数结果返回给驱动程序。f: T => Unit:这是一个函数,它接收一个类型为 T 的元素(T 为 RDD 中元素的类型),并对该元素执行相应的操作,但不返回任何值(返回类型为 Unit)。返回值:返回一个包含 RDD 中所有元素的数组,数组元素的类型与 RDD 中元素的类型一致。
2025-05-13 14:31:16
536
原创 Spark集群搭建之Yarn模式(配置集群)
3.修改hadoop的配置。workers.tempalte 改成 workers,spark-env.sh.template 改成 spark-env.sh,使用xsync /opt/module/hadoop-3.1.3/etc/hadoop/同步一下。2. 修改一下spark的环境变量,/etc/profile.d/my_env.sh。同步给其他的设备: xsync /etc/profile.d/
2025-05-13 14:24:23
131
原创 Hadoop的目录结构和组成
(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。在Hadoop3.X中,hadoop一共有四个组成部分:MapReduce计算,Yarn资源调度,HDFS数据存储,Common辅助工具。(4)Container: 容器,相当于一台独立的服务器,里面封装了任务运行时所需要的资源:如内存、cpu、磁盘、网络等等。(1)ResourceManager(RM):整个集群资源(内存,CPU等)的老大。
2025-05-13 07:45:00
344
原创 命令说明(hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutp)
这是指定要运行的 Java JAR 文件的路径。3.1.3 是 Hadoop 的版本号,不同版本的 Hadoop,其示例 JAR 文件的版本号可能不同。这是指定要运行的具体示例程序名称。在 hadoop-mapreduce-examples-3.1.3.jar 中包含了多个示例程序,wordcount 是其中一个经典的 MapReduce 程序,用于统计输入文本中每个单词出现的次数。这是在 Hadoop 环境中用于启动 Java 程序(通常是 MapReduce 作业)的标准命令格式。
2025-05-13 05:00:00
351
原创 安装Hadoop并运行WordCount程序
安装hadoop时,它自带了很多的示例代码,其中有一个是用来统计词频的程序,下面我们来看一下如何去运行这个示例代码。在任意目录下,运行 java -version,如果能看到以下结果,则代表Java安装成功。使用cd命令进入到opt/software目录,再使用ls命令,查看是否已经上传成功。使用的命令是: vi /etc/profile.d/my_env.sh。(1)新建/etc/profile.d/my_env.sh文件。打开/etc/profile.d/my_env.sh文件。注意,后面我们会按照。
2025-05-12 18:24:44
1140
原创 tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/这个代码的解释
6.-C /opt/module/:其中 -C 选项表示切换目录(change directory),后面跟着的 /opt/module/ 是指定解压后的文件存放的目标目录。这条命令的作用就是将 jdk-8u212-linux-x64.tar.gz 这个经过gzip压缩的 tar归档文件解压到 /opt/module/目录中,并在解压过程中显示详细信息。5. -f:指定要处理的归档文件名,后面跟着的 jdk-8u212-linux-x64.tar.gz 就是要解压的文件。
2025-05-12 18:19:46
493
原创 克隆虚拟机组成集群
得到了hadoop101,hadoop102,由于它们是从hadoop100直接扣克隆过来的,所以目前他们的ip和hostname都是很hadoop100是一样的,这里就需要修改下。例如进入hadoop100主机,使用 ping hadoop101来检查与hadoop101之间的连接是否正常。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。vm软件提供了克隆的功能,它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。配置IP的步骤是一样的。
2025-05-12 18:18:26
419
原创 配置集群(yarn)
1.上传并解压spark-3.1.2-bin-hadoop3.2.tgz,重命名解压之后的目录为spark-yarn。对应的命令是:tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module。使用xsync /opt/module/hadoop-3.1.3/etc/hadoop/同步一下。
2025-05-12 11:10:57
242
原创 RDD的五大特征
按照“移动数据不如移动计算”的理念,Spark在进行任务调度时,会尽可能地将任务分配到其所要处理数据块的存储位置。RDD的每次转换都会生成一个新的RDD,所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时,Spark可以通过这个依赖关系重新计算丢失的分区数据,而不是对RDD的所有分区进行重新计算。举个生活中的例子:高考的时候,每个班的同学都打散到不同的考场,此时的高3(8)班就是一个抽象的概念,在实际中,这个班级的学生可能分布在5个不同的考场。RDD的方法会作用在所有的分区上。
2025-05-12 11:07:04
645
原创 Spark集群搭建-Standalone
进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。进入/opt/module/把解压的内容重命名一下,mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。注意,这里不要省略./,它表示的是当前目录下的start-all命令,如果省略了./,它就会先去环境变量PATH中指定的目录来找这个命令。11.查看启动效果。(linux,ip设置,能ping 百度),免密互联。
2025-05-12 11:04:18
413
原创 spark和hadoop的区别与联系
Hadoop:主要依赖 MapReduce 模型,计算分 Map(映射)和 Reduce(归约)两个阶段,中间结果常需写入磁盘,磁盘 I/O 操作频繁,数据处理速度相对受限,不过适合大规模数据的稳定批处理。Spark:基于 RDD(弹性分布式数据集)抽象,提供更灵活多样的计算模型,支持多种操作,能充分利用内存进行计算,减少磁盘 I/O,在迭代计算等场景下效率优势明显,可快速完成复杂任务。Hadoop:因大量磁盘读写,尤其是处理复杂任务时多次磁盘数据交换,整体计算速度慢,处理海量数据时耗时较长。
2025-04-21 08:31:35
475
原创 Vi 编辑器基本使用指南
在终端中,输入vi加上要编辑的文件名,如vi example.txt,如果example.txt存在,Vi 编辑器会打开该文件;若不存在,则会创建一个新的空文件并打开。如果只输入vi,则会进入一个空白的编辑界面,之后可以通过保存操作指定文件名。在命令模式下,可以使用各种命令来控制光标移动、进行文本删除、复制、粘贴等操作。在命令模式下,按下:键进入末行模式,此时光标会移动到屏幕的最后一行,等待输入命令。在命令模式下,通过特定按键进入输入模式,才能进行文本的输入。要从输入模式回到命令模式,只需按下Esc键。
2025-02-24 23:41:12
744
原创 Linux 常见命令全解析
复制单个文件时,格式为cp 源文件 目标文件,如cp file1.txt /backup/,将file1.txt复制到/backup/目录。复制目录需要加上-r选项,递归复制目录及其内容,cp -r project /backup/。简单输入ls,会展示当前目录下的文件和目录列表。创建时还能指定主目录、所属组等,useradd -d /home/newuser -g users newuser。删除目录需使用rm -r 目录,rm -r oldproject,但要注意,删除操作不可逆,务必谨慎使用。
2025-02-24 23:39:21
987
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人