- 博客(32)
- 收藏
- 关注
原创 配置hosts
现在我们可以通过finalshell这个工具来连接我们的远程服务器,不过我们连接主机的时候,需要填入对方的ip地址,这个很麻烦。hosts 文件是一个本地的文本文件,它的作用是将主机名(www.douyin.com)映射到对应的 IP 地址,在 DNS(域名系统)解析之前,系统会先查询 hosts 文件来确定目标主机的 IP 地址。Yum是一个linux工具,用来从网络下载安装软件到linux操作系统中,在此之前,我们先要确保虚拟机的网络是通畅的(ping www.baidu.com)。
2025-05-14 14:31:07
474
原创 配置Hadoop集群-免密登录
所以,对于hadoop100来说,它要生成公钥,并拷贝到hadoop100, hadoop101, hadoop102上去。我们希望达成的目标是:希望用户在hadoop100登录到hadoop101时,hadoop101不需要输入密码。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。(4)在hadoop100上,输入ssh hadoop101命令,看看是否可以免密登录?例如: 在hadoop100上,也需要去设置针对它自己的免密登录。
2025-05-14 14:30:25
323
原创 RDD案例-数据清洗
age.matches("\\d+") //返回值是一个boolean。//3.将过滤后的数据保存到文件中 saveAsTextFile()3.将过滤后的数据保存到文件中 saveAsTextFile()//1.读取数据,读入文本文件 sc.textFile()// 拆分出年龄 split(",")(1)(1)拆分出年龄 split(",")(1)//将所有的分区的数据合并成一个分区。// 判断年龄是否为数字,是,保留。//判断年龄是否为数字。//2.对于文件中的每一行。2.对于文件中的每一行。
2025-05-14 14:29:54
170
原创 Spark集群搭建之Yarn模式
进入/opt/module/spart-yarn/sbin,运行: ./start-all.sh 和 ./start-history-server.sh。在输入 echo $PATH回车,出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变。4.修改spark配置。
2025-05-14 14:29:18
345
原创 1分钟教你使用vm虚拟机
4.选择操作系统【Linux】===> 【CentOS-7 7 64 位】(我要创建的是CentOS-7,所以我选择CentOS-7,这里选择你要创建的系统就行了)===> 下一步。7.找到【CD/DVD 】点击使用ISO映像文件 ===> 浏览(选择自己下载的镜像文件,最后点击确定。5. 选择是否更改虚拟机的名字或位置。以下步骤,全部点击“下一步”3.选择“稍后安装操作系统”2.创建虚拟机,选择自定义。
2025-05-14 14:28:47
97
原创 Linux常用指令
mkdir -p dir1/dir2:递归创建。- touch: 创建空文件或更新文件时间戳。- head/tail: 查看文件开头/结尾。- more/less: 分页查看文件。- tail -f:实时查看日志。- mv: 移动或重命名文件/目录。- chown: 修改文件所有者。- chgrp: 修改文件所属组。- chmod: 修改文件权限。- rm -r:递归删除。- rm -f:强制删除。- cp -r:递归复制。ls -l:详细列表。- rm: 删除文件或目录。- cp: 复制文件或目录。
2025-05-14 14:27:53
206
原创 vi编辑器的使用方法
**末行模式(Last Line Mode)**:在命令模式下按 `:` 进入,用于执行保存、退出等操作。- **命令模式(Command Mode)**:默认模式,用于执行命令(如移动光标、删除文本等)。- **插入模式(Insert Mode)**:用于输入或编辑文本。- 在命令模式下,按 `p` 将复制的内容粘贴到当前行的下一行。- 在命令模式下,将光标移动到要删除的行,然后按 `dd`。第一次进入 `vi` 编辑器时,默认是**命令模式**。- 输入 `:wq` 或 `:x`:保存并退出。
2025-05-14 14:27:23
227
原创 虚拟机IP配置
linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。(2)配置Windows本地虚拟网卡,让本机也可以访问虚拟机。具体设置为:进入虚拟机,修改对应的IP。(3)设置虚拟机的IP。
2025-05-14 14:26:53
248
原创 一分钟教你数据清洗
它是指对采集到的原始数据进行预处理,以去除错误、重复、不完整或不一致的数据,使数据符合分析要求的过程。对于reduce函数来说,它的输入参数是:<刷选后的每一行的内容,[null,null,...]>,对于我们的需求来说,并不需要这个阶段。map阶段:按行读入内容,对内容进行检查,如果字段的个数少于等于11,就删除这条日志(不保留)去除日志中字段个数小于等于11的日志内容。//这里是你创建的包名,要修改为你的包名。<偏移量,每一行的内容> → <刷选后的没一行的内容,null>// 4 设置最终输出类型。
2025-05-14 14:26:22
343
原创 hadoop的常用指令
任务1:在hadoop102上,将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。任务2:在hadoop101上操作,将hadoop100中/opt/module目录下所有目录拷贝到hadoop102上。在hadoop100的/opt/conf/ 新建1.txt, 2.txt, 3.txt, 4.txt。现在的目标是:要把hadoop100上的jdk文件夹拷贝到hadoop101中的相同的目录下。(3)$pdir/$fname: 要拷贝的文件路径/名称。
2025-05-14 14:25:23
300
原创 mapreduce工作原理
它的核心思想是将一个复杂的计算任务分解为多个简单的任务(Map 和 Reduce),并在分布式集群上并行执行。这是 MapReduce 的核心阶段,负责将 Map 阶段的输出传输到 Reduce 任务。总结来说,MapReduce 是一种强大的分布式计算模型,特别适合大规模数据的批处理任务。Shuffle:将 Map 任务生成的中间键值对按照键分发到不同的 Reduce 任务。每个 Reduce 任务接收一组键值对(相同键的值被分组在一起)。Sort:对每个键的值进行排序,确保相同键的值被分组在一起。
2025-05-14 14:24:52
336
原创 配置HADOOP_HOME环境变量和maven_HOME环境变量
注意:变量值要“浏览目录”选择你存放hadoop的文件和maven的文件。5.在“系统变量”里双击Path”,在里面新建两个变量。4.在“系统变量”下新建两个系统变量。1.右击此电脑,选择“属性”2.选择“高级系统配置”3.选择“环境变量”
2025-05-14 14:24:22
87
原创 spark和Hadoop之间的对比和联系
定位:分布式存储与离线批处理的基础框架,核心组件包括HDFS(存储)和MapReduce(计算),适合海量数据的低成本存储及离线处理(如日志分析、ETL)。架构特点:通过DAG(有向无环图)优化任务调度,减少磁盘I/O,速度通常比Hadoop快10-100倍,适合实时或迭代计算(如机器学习、图计算)。定位:专注于高效计算的分布式引擎,支持批处理、实时流处理、机器学习等多场景,核心基于内存计算和弹性分布式数据集(RDD)。选择Spark:若涉及实时计算、机器学习等复杂场景,需高性能和灵活性。
2025-05-14 14:23:51
267
原创 配置spark
然后tar -zxvf 你的spark安装包的完整名字 -C /opt/module,进行解压。例如我的spark完整名字是spark-3.1.1-bin-hadoop3.2.tgz,所以我要输入的命令是。在输入 echo $PATH回车,出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变量了。自己新建一个存放修改spark环境变量的文件,例如我的是my_env.sh,在里面添加配置的内容。2.配置spark的环境变量。
2025-05-14 14:23:20
154
原创 配置spark
然后tar -zxvf 你的spark安装包的完整名字 -C /opt/module,进行解压。在输入 echo $PATH回车,出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变量了。保存修改,回到输入命令界面,输入source /etc/profile,重新刷新环境变量,让修改的环境变量生效。自己新建一个存放修改spark环境变量的文件,例如我的是my_env.sh,在里面添加配置的内容。2.配置spark的环境变量。
2025-05-13 10:05:16
192
原创 Spark集群搭建之Yarn模式
进入/opt/module/spart-yarn/sbin,运行: ./start-all.sh 和 ./start-history-server.sh。在输入 echo $PATH回车,出现spark-local/bin:/opt/module/spark-local/sbin说明我们已经配置好spark的环境变。4.修改spark配置。
2025-05-13 10:04:46
295
原创 RDD算子-转换算子Map
4.reduceByKey:键值对的数据(word,1),(hell,1)3.flatMap:flat(扁平化) + map(映射)
2025-05-13 10:03:37
131
原创 spark-shell中写代码
通过 SparkConf 类,你可以设置应用程序的名称、运行模式(如本地模式、集群模式)、资源分配(如内存、CPU 核心数)等。Resilient Distributed Dataset 叫做弹性分布式数据集,是Spark中最基本的数据抽象,是分布式计算的实现载体,代表一个不可变,可分区,里面的元素并行计算的集合。- Distributed: 分布式存储的,表示数据是存放在不同的机器上的。不可变的:immutable。并行计算:集合中的数据可以被并行的计算处理,每个分区数据被一个Task任务处理。
2025-05-13 09:20:57
251
原创 配置Hadoop集群-免密登录
所以,对于hadoop100来说,它要生成公钥,并拷贝到hadoop100, hadoop101, hadoop102上去。我们希望达成的目标是:希望用户在hadoop100登录到hadoop101时,hadoop101不需要输入密码。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。(4)在hadoop100上,输入ssh hadoop101命令,看看是否可以免密登录?例如: 在hadoop100上,也需要去设置针对它自己的免密登录。
2025-05-13 09:20:27
433
原创 vi编辑器
命令模式:在这个模式下,所敲的按键编辑器都理解为命令,以命令来驱动执行不同的功能。当我们通过VI命令第一次打开文件的时候,进入的就是命令模式。具体来说yy(两个小y)复制光标所在行的内容,nyy(n+两个小y)复制当前行往下n行内容,例如3yy就是复制三行。vi编辑器有三种工作模式,分别是命令模式,编辑模式,底线模式。(2)按下o:进入到编辑输入模式后,在当前行的后面添加一行空行(当前行的下一行)学习它的最大的挑战是:万物皆命令。它是linux的内置命令,所以还是以命令的方式来运行。
2025-05-13 09:19:53
145
原创 配置hosts
现在我们可以通过finalshell这个工具来连接我们的远程服务器,不过我们连接主机的时候,需要填入对方的ip地址,这个很麻烦。hosts 文件是一个本地的文本文件,它的作用是将主机名(www.douyin.com)映射到对应的 IP 地址,在 DNS(域名系统)解析之前,系统会先查询 hosts 文件来确定目标主机的 IP 地址。Yum是一个linux工具,用来从网络下载安装软件到linux操作系统中,在此之前,我们先要确保虚拟机的网络是通畅的(ping www.baidu.com)。
2025-05-13 09:19:22
863
原创 克隆虚拟机组成集群
在随后的设置中,请注意两点:(1)要给其他两台虚拟机取不同的名字。要注意,这里是虚拟机的名称,而不是它的hostname。克隆之后,我们得到了hadoop101,hadoop102,由于它们是从hadoop100直接扣克隆过来的,所以目前他们的ip和hostname都是很hadoop100是一样的,这里就需要修改下。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。vm软件提供了克隆的功能,它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。
2025-05-13 09:18:47
206
原创 配置Hadoop集群-集群配置
对普通用户来说, Hadoop就是一个东西,一个整体,它能给我们提供无限的磁盘用来保存文件,可以使用提供强大的计算能力。(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。刚才我们是在hadoop100这台机器上进行了正确的设置,但是,其他的2台机器也要做相同的配置。接下来配置第二个文件,/opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml。
2025-05-13 09:18:17
1153
原创 配置Hadoop集群-测试使用
这个存储的目录特别深,大概类似于:/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0。上传文件的时候,我们传一个大一点的(>128M),再传一个小一点的。在我们上一节的hadoop配置中,我们设置了保持文件的目录是/data,所以,我们进入hadoop的按照目录下的data中去看一看。文件的名称是blk_xxx。
2025-05-13 09:17:17
317
原创 配置Hadoop集群-配置历史和日志服务
echo " --------------- 启动 historyserver ---------------"echo " --------------- 关闭 historyserver ---------------"echo " --------------- 启动 hdfs ---------------"echo " --------------- 启动 yarn ---------------"echo " --------------- 关闭 yarn ---------------"
2025-05-13 09:16:46
1516
原创 Spark缓存
当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用。MEMORY_ONLY_SER:将 RDD 以序列化的 Java 对象形式存储在内存中,相较于 MEMORY_ONLY,序列化后占用的内存空间更小,但读取时需要进行反序列化操作,会带来一定的性能开销。RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的行动算子时,该RDD将会被缓存在计算节点的内存中,并供以后重用。
2025-05-13 09:15:49
309
原创 转换算子和行动算子的区别
例如:collect、count、reduce、foreach、saveAsTextFile等135。例如:map、filter、flatMap、groupByKey、sortBy(部分场景)等135。行动算子:返回非RDD结果(如数值、列表、字符串等),甚至无返回(如写入存储)245。特点:立即执行,返回具体值(如数值、集合等)或无返回(如保存数据)45。行动算子:触发整个计算链路的执行,包括之前所有的转换操作34。行动算子:直接触发作业提交,执行所有前置转换操作34。转换算子:返回新的RDD134。
2025-05-13 09:14:05
135
原创 如何在idea中写spark程序
通过以上步骤,你可以在 IntelliJ IDEA 中高效地编写、调试和部署 Spark 程序。在类中编写 Spark 程序代码。如果你的 Spark 程序需要连接到远程 Spark 集群,需要配置环境变量。在 IntelliJ IDEA 中,可以设置断点并使用调试模式运行程序。Maven 是一个强大的项目管理和构建工具,用于管理项目依赖。使用 Spark 的性能调优工具,如 Spark UI(访问。如果一切配置正确,程序将在本地运行,并输出 π 的近似值。模式运行程序,但在生产环境中需要切换到集群模式。
2025-04-28 20:01:17
599
原创 如何搭建spark yarn模式的集群
通过以上步骤,您就可以成功搭建一个 Spark on YARN 模式的集群。如果遇到权限问题,可以尝试调整 HDFS 和 Spark 目录的权限。:确保集群中的所有节点能够互相通信,主机名和 IP 地址需正确配置。下载预编译的 Spark 包,选择与 Hadoop 版本兼容的版本。:确保安装了 JDK 1.8 或以上版本。如果集群中有防火墙,需要开放相关端口。: 编辑 Hadoop 的。文件,配置 HDFS。文件,配置 YARN。确保所有节点的时钟同步。文件分发到所有节点。,查看作业运行状态。
2025-04-28 19:59:43
853
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人