- 博客(76)
- 收藏
- 关注
原创 自定义分区器
继承Partitioner基类// 必须实现的方法实现核心方法// 自定义分区逻辑case _ => 0 // 处理其他类型可选方法重写。
2025-05-13 11:30:08
422
原创 Spark处理过程-案例数据清洗
数据清洗是指在数据分析或处理之前,对原始数据进行预处理,以消除错误、不一致、重复或缺失的数据,从而提高数据的质量和可用性。数据清洗是数据科学和数据分析中至关重要的一步,因为低质量的数据会导致错误的结论和决策。以下是 10 条符合上述示例中数据格式(姓名,年龄,性别)的测试数据,包含了一些可能需要清洗掉的无效数据,你可以将其保存为一个文本文件,用于测试上面的数据清洗程序。“李四” 的年龄为空,“赵六” 和 “吴九” 的年龄不是有效的数字,在执行数据清洗程序时,这些行应该会被过滤掉。如何拆分出一行中的年龄?
2025-05-13 11:27:26
383
原创 Yarn-tool接口
注:Yarn 2+版本推荐使用Plug'n'Play安装模式,可显著提升安装速度并减少node_modules体积。三、工作区管理(Monorepo支持)一、依赖管理基础操作。二、版本控制关键命令。
2025-05-13 11:14:13
167
原创 Spark 缓存(Caching)
通过合理使用缓存,典型场景可提升作业性能3-10倍。建议结合Spark UI监控缓存命中率和内存使用情况,动态调整存储策略。
2025-05-13 11:08:07
417
原创 【Spark】使用Spark集群搭建-Standalone
例如,可以选择 spark-3.3.2-bin-hadoop3 这个预编译版本。验证 Master 启动成功:访问 http://192.168.1.100:8080,应看到 Spark Master 界面。内存不足:调整 SPARK_WORKER_MEMORY 和 spark.executor.memory 参数。Worker 无法连接 Master:检查防火墙、主机名解析和 spark-env.sh 配置。Web UI 无法访问:确保端口开放且 Master/Worker 服务正常运行。
2025-05-13 09:15:58
697
原创 Spark处理过程-转换算子和行动算子
行动算子是触发 Spark 计算的“触发点”,因为 Spark 的 RDD 是懒惰计算的,只有在执行行动算子时,才会真正开始计算。作用:对 RDD 中的每个元素应用给定的函数 f,将每个元素转换为另一个元素,最终返回一个新的 RDD。作用:筛选出 RDD 中满足函数 f 条件(即 f 函数返回 true)的元素,返回一个新的 RDD,新 RDD 中的元素类型与原 RDD 相同。作用:对 RDD 中的每个元素应用函数 f,函数 f 返回一个可遍历的集合,然后将这些集合中的元素扁平化合并成一个新的 RDD。
2025-05-13 08:49:33
562
原创 通过jps命令,可以看到如下进程名,请解释一下它们各自是哪个命令产生的,有什么作用?
作用:是 YARN(Yet Another Resource Negotiator)中的节点代理,负责管理单个节点上的资源使用,包括内存、CPU 等,监控容器的运行状态,并向 ResourceManager 汇报节点的资源使用情况和容器的状态。作用:与 JobHistoryServer 类似,用于记录和提供 YARN 应用程序的历史信息,包括应用程序的运行时间、资源申请情况、容器的启动和停止时间等,帮助用户了解应用程序在集群中的运行历史,以便进行性能调优和问题诊断。命令本身产生的进程。
2025-05-13 08:32:25
374
原创 搭建spark-local模式
在安装Spark时,它就提供了一些示例程序,我们可以直接来调用。进入到spark-local,运行命令spark-submit命令。mv是linux的命令,这里的 \ 是换行输入的意思,整体的代码就只有一句,只不过太长了,我们把它拆开成几个部分来输入,其中\ 的意思就是这里写不下,写在下一行。请注意,它并不会产生新的文件,而是直接在控制台输出结果。接下来的操作,我们把它上传到集群中的节点,并解压运行。1.打开etc/profile.d/my_env.sh文件中,补充设置spark的环境变量。
2025-05-12 20:16:52
382
原创 Spark和Hadoop之间的对比和联系
常结合使用:在实际的大数据项目中,通常会将 Hadoop 和 Spark 结合起来使用,充分发挥 Hadoop 在批处理和数据存储方面的优势,以及 Spark 在实时计算和交互式查询方面的优势,共同构建完整的大数据处理平台。Hadoop 为 Spark 提供基础:Hadoop 的 HDFS 可以为 Spark 提供可靠的分布式数据存储,Spark 可以运行在 Hadoop 集群上,利用 Hadoop 的资源管理和调度功能来执行任务。
2025-05-12 20:14:03
324
原创 如何配置环境变量HADOOP_HOMEM、AVEN_HOME?不配置会怎么样
hadoop集群我们配置好了,要与它进行交互,我们还需要准备hadoop的客户端。要分成两步:下载hadoop包、配置环境变量。1. 找到资料包路径下的Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径(比如d:\hadoop-3.1.0)2. 新建HADOOP_HOME环境变量,值就是保存hadoop的目录。(二)不配置环境变量的影响不配置 HADOOP_HOME。4.验证Hadoop环境变量是否正常。(一)hadoop客户端环境准备。3.配置Path环境变量。
2025-05-12 20:10:44
295
原创 数据清洗
代码说明:NullWritable就等价于null,context.write(value,NullWritable.get())就表示只有key,没有value。代码说明:reduceTask为0,表示没有reduce阶段,程序会根据Map函数的结果把内容输出。最终输出的文件个数与mapperTask的数量一致。<偏移量,第一行的内容> → <通过刷选之后的第一行的内容,null>
2025-05-12 20:01:35
166
原创 mapreduce的工作原理
MapReduce 是一种分布式计算框架,用于处理和生成大规模数据集。它将任务分为两个主要阶段:Map 阶段和 Reduce 阶段。开发人员可以使用存储在 HDFS 中的数据,编写 Hadoop 的 MapReduce 任务,从而实现并行处理。
2025-05-12 19:58:46
312
原创 hadoop集群配置-scp拓展使用
任务2:在hadoop101上操作,将hadoop100中/opt/module目录下所有目录拷贝到hadoop102上。分析:使用scp进行拉取。分析:使用scp进行搭桥。先登录到hadoop2。登录hadoop101。
2025-05-12 19:48:56
160
原创 hadoop集群配置-scp命令
(1)在两台虚拟机(hadoop100、hadoop101)都已经创建好了/opt/module,/opt/software两个目录。现在的目标是:要把hadoop100上的jdk文件夹拷贝到hadoop101中的相同的目录下。(3)$user@host:$pdir/$fname: 目的地用户@主机:目的地路径/名称。(2)在hadoop100这台机器中已经安装了jdk和hadoop。把hadoop100和hadoop101都启动。(2)$pdir/$fname: 要拷贝的文件路径/名称。
2025-05-12 19:46:20
139
原创 在虚拟机上安装hadoop
请注意,我们已经将hadoo解压到了/opt/module/hadoop-3.1.3目录下。导入到opt目录下面的software文件夹下面,然后解压,最后配置环境变量。/etc/profile. d/my_ env.sh文件。使用source命令让配置文件生效。
2025-05-12 19:43:39
157
原创 虚拟机上安装java
etc/profile 是系统级别的全局配置文件,当用户进行登录操作时,该文件会被执行,而/etc/profile脚本里包含了对/etc/profile.d目录下脚本的扫描和执行逻辑。所以,我们可以把需要用到的环境变量配置到一个新的.sh文件中,再把这个新的文件放在profile.d目录下。-f:指定要处理的归档文件名,后面跟着的jdk-8u212- -linux -x64. tar.gz就是要解压的文件。使用的命令是: vi /etc/profile. d/my_ env. sh。
2025-05-12 19:40:01
258
原创 虚拟机配置IP
linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。具体设置为:进入虚拟机,修改对应的IP。具体操作是:点击编辑→虚拟网络编辑器。(3)设置虚拟机的IP。
2025-05-12 19:32:45
187
原创 如何在idea中写spark程序
在项目的 src/main/scala 目录下创建新的 Scala 类,例如 SparkApp.scala。.master("local[*]") // 根据实际情况设置运行模式,这里 local[*] 表示本地多线程运行。右键点击编写的 Scala 类,选择 Run 'SparkApp' 运行程序。添加完依赖后,在 IDEA 中刷新 Maven 或 Gradle 项目,让其下载所需的依赖包。请将 "path/to/your/file.txt" 替换为实际的文件路径。
2025-04-28 20:03:36
883
原创 搭建spark yarn 模式的集群集群
在大数据处理领域,Apache Spark 是一个强大的分布式计算框架,而 YARN(Yet Another Resource Negotiator)是 Hadoop 的资源管理系统。将 Spark 运行在 YARN 模式下,可以充分利用 YARN 强大的资源管理和调度能力,实现资源的高效利用和任务的灵活分配。本文将详细介绍如何搭建 Spark YARN 模式的集群,让你轻松上手大数据处理环境的搭建。SSH 无密码登录:配置集群节点之间的 SSH 无密码登录,方便节点间通信。四、配置 Spark。
2025-04-28 19:57:45
1069
原创 spark和hadoop之间的对比和联系
在实际的大数据处理流程中,常常会将 Hadoop 和 Spark 结合使用,先使用 Hadoop 进行数据的收集、整理和初步处理,然后再将数据交给 Spark 进行更深入的分析和计算。:基于内存计算,提供了丰富的算子,如 map、filter、reduceByKey 等,可以更方便地进行复杂的数据处理和分析。:基于内存的计算使得数据处理速度大幅提升,能够在内存中直接对数据进行多次操作,减少了磁盘 I/O,因此在处理相同的数据量时,Spark 通常比 Hadoop 快数倍甚至数十倍。
2025-04-22 08:32:25
443
原创 vi编辑器的使用
(:q 退出 :w保存 :wq 保存退出 :wq!提示:在命令模式下按下shift+zz,可以实现快速保存退出。2.nyy(n+两个小y)复制当前行往下n行的内容。2.ndd(n+两个小d)用来删除当前往下n行。4.按下G键(大写g)可以跳到文件的最后一行。5.按下gg键(两个小g)跳到文件的第一行。1.dd(两个小d)用来删除光标所在行内容。1.yy(两个小y)复制光标所在行的内容。1.p(小写p)下当前行的下一行贴贴。命令模式,编辑模式,底线命令模式)
2025-02-25 11:36:56
393
原创 【无标题】
添加 var Array(x,y,z,k) = arr。因为数组有4个值,所以还要添加一个 k。_*: 表示后面有多个元素。想要输出2,3,4怎么办?不想添加 k 怎么办?
2024-12-11 17:01:42
149
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人