自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 自定义分区器

继承Partitioner基类// 必须实现的方法实现核心方法// 自定义分区逻辑case _ => 0 // 处理其他类型可选方法重写。

2025-05-13 11:30:08 422

原创 Spark处理过程-案例数据清洗

数据清洗是指在数据分析或处理之前,对原始数据进行预处理,以消除错误、不一致、重复或缺失的数据,从而提高数据的质量和可用性。数据清洗是数据科学和数据分析中至关重要的一步,因为低质量的数据会导致错误的结论和决策。以下是 10 条符合上述示例中数据格式(姓名,年龄,性别)的测试数据,包含了一些可能需要清洗掉的无效数据,你可以将其保存为一个文本文件,用于测试上面的数据清洗程序。“李四” 的年龄为空,“赵六” 和 “吴九” 的年龄不是有效的数字,在执行数据清洗程序时,这些行应该会被过滤掉。如何拆分出一行中的年龄?

2025-05-13 11:27:26 383

原创 运行Spark程序-在shell中运行

转换操作(如map/filter)需要执行动作(如collect/count)才会触发计算。

2025-05-13 11:20:57 481

原创 运行Spark程序-在Idea中

【代码】运行Spark程序-在Idea中。

2025-05-13 11:19:08 355

原创 Spark集群搭建之Yarn模式

【代码】Spark集群搭建之Yarn模式。

2025-05-13 11:16:52 163

原创 Yarn-tool接口

注:Yarn 2+版本推荐使用Plug'n'Play安装模式,可显著提升安装速度并减少node_modules体积。三、工作区管理(Monorepo支持)一、依赖管理基础操作。二、版本控制关键命令。

2025-05-13 11:14:13 167

原创 HDFS的客户端操作

【代码】HDFS的客户端操作。

2025-05-13 11:12:02 191

原创 Spark 缓存(Caching)

通过合理使用缓存,典型场景可提升作业性能3-10倍。建议结合Spark UI监控缓存命中率和内存使用情况,动态调整存储策略。

2025-05-13 11:08:07 417

原创 【Spark】使用Spark集群搭建-Standalone

例如,可以选择 spark-3.3.2-bin-hadoop3 这个预编译版本。验证 Master 启动成功:访问 http://192.168.1.100:8080,应看到 Spark Master 界面。内存不足:调整 SPARK_WORKER_MEMORY 和 spark.executor.memory 参数。Worker 无法连接 Master:检查防火墙、主机名解析和 spark-env.sh 配置。Web UI 无法访问:确保端口开放且 Master/Worker 服务正常运行。

2025-05-13 09:15:58 697

原创 Spark处理过程-转换算子和行动算子

行动算子是触发 Spark 计算的“触发点”,因为 Spark 的 RDD 是懒惰计算的,只有在执行行动算子时,才会真正开始计算。作用:对 RDD 中的每个元素应用给定的函数 f,将每个元素转换为另一个元素,最终返回一个新的 RDD。作用:筛选出 RDD 中满足函数 f 条件(即 f 函数返回 true)的元素,返回一个新的 RDD,新 RDD 中的元素类型与原 RDD 相同。作用:对 RDD 中的每个元素应用函数 f,函数 f 返回一个可遍历的集合,然后将这些集合中的元素扁平化合并成一个新的 RDD。

2025-05-13 08:49:33 562

原创 通过jps命令,可以看到如下进程名,请解释一下它们各自是哪个命令产生的,有什么作用?

作用:是 YARN(Yet Another Resource Negotiator)中的节点代理,负责管理单个节点上的资源使用,包括内存、CPU 等,监控容器的运行状态,并向 ResourceManager 汇报节点的资源使用情况和容器的状态。作用:与 JobHistoryServer 类似,用于记录和提供 YARN 应用程序的历史信息,包括应用程序的运行时间、资源申请情况、容器的启动和停止时间等,帮助用户了解应用程序在集群中的运行历史,以便进行性能调优和问题诊断。命令本身产生的进程。

2025-05-13 08:32:25 374

原创 搭建spark-local模式

在安装Spark时,它就提供了一些示例程序,我们可以直接来调用。进入到spark-local,运行命令spark-submit命令。mv是linux的命令,这里的 \ 是换行输入的意思,整体的代码就只有一句,只不过太长了,我们把它拆开成几个部分来输入,其中\ 的意思就是这里写不下,写在下一行。请注意,它并不会产生新的文件,而是直接在控制台输出结果。接下来的操作,我们把它上传到集群中的节点,并解压运行。1.打开etc/profile.d/my_env.sh文件中,补充设置spark的环境变量。

2025-05-12 20:16:52 382

原创 Spark和Hadoop之间的对比和联系

常结合使用:在实际的大数据项目中,通常会将 Hadoop 和 Spark 结合起来使用,充分发挥 Hadoop 在批处理和数据存储方面的优势,以及 Spark 在实时计算和交互式查询方面的优势,共同构建完整的大数据处理平台。Hadoop 为 Spark 提供基础:Hadoop 的 HDFS 可以为 Spark 提供可靠的分布式数据存储,Spark 可以运行在 Hadoop 集群上,利用 Hadoop 的资源管理和调度功能来执行任务。

2025-05-12 20:14:03 324

原创 如何配置环境变量HADOOP_HOMEM、AVEN_HOME?不配置会怎么样

hadoop集群我们配置好了,要与它进行交互,我们还需要准备hadoop的客户端。要分成两步:下载hadoop包、配置环境变量。1. 找到资料包路径下的Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径(比如d:\hadoop-3.1.0)2. 新建HADOOP_HOME环境变量,值就是保存hadoop的目录。(二)不配置环境变量的影响不配置 HADOOP_HOME。4.验证Hadoop环境变量是否正常。(一)hadoop客户端环境准备。3.配置Path环境变量。

2025-05-12 20:10:44 295

原创 流量统计实例

【代码】流量统计实例。

2025-05-12 20:06:31 134

原创 序列化 反序列化实例

【代码】序列化 反序列化实例。

2025-05-12 20:03:31 167

原创 数据清洗

代码说明:NullWritable就等价于null,context.write(value,NullWritable.get())就表示只有key,没有value。代码说明:reduceTask为0,表示没有reduce阶段,程序会根据Map函数的结果把内容输出。最终输出的文件个数与mapperTask的数量一致。<偏移量,第一行的内容> → <通过刷选之后的第一行的内容,null>

2025-05-12 20:01:35 166

原创 mapreduce的工作原理

MapReduce 是一种分布式计算框架,用于处理和生成大规模数据集。它将任务分为两个主要阶段:Map 阶段和 Reduce 阶段。开发人员可以使用存储在 HDFS 中的数据,编写 Hadoop 的 MapReduce 任务,从而实现并行处理。

2025-05-12 19:58:46 312

原创 Hadoop集群的常用命令

Hadoop集群的常用命令涵盖了文件系统操作、作业管理、集群监控等多个方面。

2025-05-12 19:57:21 295

原创 如何调整yarn.nodemanager.vmem-pmem-ratio参数?

yarn.nodemanager.vmem-pmem-ratio

2025-05-12 19:51:38 386

原创 hadoop集群配置-scp拓展使用

任务2:在hadoop101上操作,将hadoop100中/opt/module目录下所有目录拷贝到hadoop102上。分析:使用scp进行拉取。分析:使用scp进行搭桥。先登录到hadoop2。登录hadoop101。

2025-05-12 19:48:56 160

原创 hadoop集群配置-scp命令

(1)在两台虚拟机(hadoop100、hadoop101)都已经创建好了/opt/module,/opt/software两个目录。现在的目标是:要把hadoop100上的jdk文件夹拷贝到hadoop101中的相同的目录下。(3)$user@host:$pdir/$fname: 目的地用户@主机:目的地路径/名称。(2)在hadoop100这台机器中已经安装了jdk和hadoop。把hadoop100和hadoop101都启动。(2)$pdir/$fname: 要拷贝的文件路径/名称。

2025-05-12 19:46:20 139

原创 在虚拟机上安装hadoop

请注意,我们已经将hadoo解压到了/opt/module/hadoop-3.1.3目录下。导入到opt目录下面的software文件夹下面,然后解压,最后配置环境变量。/etc/profile. d/my_ env.sh文件。使用source命令让配置文件生效。

2025-05-12 19:43:39 157

原创 虚拟机上安装java

etc/profile 是系统级别的全局配置文件,当用户进行登录操作时,该文件会被执行,而/etc/profile脚本里包含了对/etc/profile.d目录下脚本的扫描和执行逻辑。所以,我们可以把需要用到的环境变量配置到一个新的.sh文件中,再把这个新的文件放在profile.d目录下。-f:指定要处理的归档文件名,后面跟着的jdk-8u212- -linux -x64. tar.gz就是要解压的文件。使用的命令是: vi /etc/profile. d/my_ env. sh。

2025-05-12 19:40:01 258

原创 虚拟机配置IP

linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。具体设置为:进入虚拟机,修改对应的IP。具体操作是:点击编辑→虚拟网络编辑器。(3)设置虚拟机的IP。

2025-05-12 19:32:45 187

原创 如何在idea中写spark程序

在项目的 src/main/scala 目录下创建新的 Scala 类,例如 SparkApp.scala。.master("local[*]") // 根据实际情况设置运行模式,这里 local[*] 表示本地多线程运行。右键点击编写的 Scala 类,选择 Run 'SparkApp' 运行程序。添加完依赖后,在 IDEA 中刷新 Maven 或 Gradle 项目,让其下载所需的依赖包。请将 "path/to/your/file.txt" 替换为实际的文件路径。

2025-04-28 20:03:36 883

原创 搭建spark yarn 模式的集群集群

在大数据处理领域,Apache Spark 是一个强大的分布式计算框架,而 YARN(Yet Another Resource Negotiator)是 Hadoop 的资源管理系统。将 Spark 运行在 YARN 模式下,可以充分利用 YARN 强大的资源管理和调度能力,实现资源的高效利用和任务的灵活分配。本文将详细介绍如何搭建 Spark YARN 模式的集群,让你轻松上手大数据处理环境的搭建。SSH 无密码登录:配置集群节点之间的 SSH 无密码登录,方便节点间通信。四、配置 Spark。

2025-04-28 19:57:45 1069

原创 spark和hadoop之间的对比和联系

在实际的大数据处理流程中,常常会将 Hadoop 和 Spark 结合使用,先使用 Hadoop 进行数据的收集、整理和初步处理,然后再将数据交给 Spark 进行更深入的分析和计算。:基于内存计算,提供了丰富的算子,如 map、filter、reduceByKey 等,可以更方便地进行复杂的数据处理和分析。:基于内存的计算使得数据处理速度大幅提升,能够在内存中直接对数据进行多次操作,减少了磁盘 I/O,因此在处理相同的数据量时,Spark 通常比 Hadoop 快数倍甚至数十倍。

2025-04-22 08:32:25 443

原创 vm+centos虚拟机

Linun

2025-03-03 19:37:26 136

原创 vi编辑器的使用

(:q 退出 :w保存 :wq 保存退出 :wq!提示:在命令模式下按下shift+zz,可以实现快速保存退出。2.nyy(n+两个小y)复制当前行往下n行的内容。2.ndd(n+两个小d)用来删除当前往下n行。4.按下G键(大写g)可以跳到文件的最后一行。5.按下gg键(两个小g)跳到文件的第一行。1.dd(两个小d)用来删除光标所在行内容。1.yy(两个小y)复制光标所在行的内容。1.p(小写p)下当前行的下一行贴贴。命令模式,编辑模式,底线命令模式)

2025-02-25 11:36:56 393

原创 Linux 命令

Linux是一个开源的类 Unix 操作系统,它提供了强大的命令行工具,用于完成各种系统管理、文件操作、网络配置等任务。

2025-02-20 13:53:32 648

原创 验证用户名是否合法

【代码】验证用户名是否合法。

2024-12-11 17:08:34 339

原创 隐式类

【代码】隐式类。

2024-12-11 17:03:56 98

原创 【无标题】

【代码】【无标题】

2024-12-11 17:02:45 139

原创 case class

【代码】case class。

2024-12-11 17:02:22 96

原创 【无标题】

添加 var Array(x,y,z,k) = arr。因为数组有4个值,所以还要添加一个 k。_*: 表示后面有多个元素。想要输出2,3,4怎么办?不想添加 k 怎么办?

2024-12-11 17:01:42 149

原创 Scala 的 模式匹配

练习:输入一个年份,是不是闰年。第二种方法:模式匹配。

2024-12-04 14:16:28 491

原创 成绩表计算

【代码】成绩表计算。

2024-11-27 17:02:00 138

原创 题目

【代码】题目。

2024-11-27 16:48:02 142

原创 queue 和 Stack

【代码】queue 和 Stack。

2024-11-27 16:41:16 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除