元633-CSDN博客

原创自定义分区器

继承Partitioner基类// 必须实现的方法实现核心方法// 自定义分区逻辑case _ => 0 // 处理其他类型可选方法重写。

2025-05-13 11:30:08 422

数据清洗是指在数据分析或处理之前，对原始数据进行预处理，以消除错误、不一致、重复或缺失的数据，从而提高数据的质量和可用性。数据清洗是数据科学和数据分析中至关重要的一步，因为低质量的数据会导致错误的结论和决策。以下是 10 条符合上述示例中数据格式（姓名,年龄,性别）的测试数据，包含了一些可能需要清洗掉的无效数据，你可以将其保存为一个文本文件，用于测试上面的数据清洗程序。“李四” 的年龄为空，“赵六” 和 “吴九” 的年龄不是有效的数字，在执行数据清洗程序时，这些行应该会被过滤掉。如何拆分出一行中的年龄？

2025-05-13 11:27:26 383

原创运行Spark程序-在shell中运行

转换操作（如map/filter）需要执行动作（如collect/count）才会触发计算。

2025-05-13 11:20:57 481

原创运行Spark程序-在Idea中

【代码】运行Spark程序-在Idea中。

2025-05-13 11:19:08 355

原创 Spark集群搭建之Yarn模式

【代码】Spark集群搭建之Yarn模式。

2025-05-13 11:16:52 163

原创 Yarn-tool接口

注：Yarn 2+版本推荐使用Plug'n'Play安装模式，可显著提升安装速度并减少node_modules体积。三、工作区管理（Monorepo支持）一、依赖管理基础操作。二、版本控制关键命令。

2025-05-13 11:14:13 167

原创 HDFS的客户端操作

【代码】HDFS的客户端操作。

2025-05-13 11:12:02 191

原创 Spark 缓存（Caching）

通过合理使用缓存，典型场景可提升作业性能3-10倍。建议结合Spark UI监控缓存命中率和内存使用情况，动态调整存储策略。

2025-05-13 11:08:07 417

原创【Spark】使用Spark集群搭建-Standalone

例如，可以选择 spark-3.3.2-bin-hadoop3 这个预编译版本。验证 Master 启动成功：访问 http://192.168.1.100:8080，应看到 Spark Master 界面。内存不足：调整 SPARK_WORKER_MEMORY 和 spark.executor.memory 参数。Worker 无法连接 Master：检查防火墙、主机名解析和 spark-env.sh 配置。Web UI 无法访问：确保端口开放且 Master/Worker 服务正常运行。

2025-05-13 09:15:58 697

原创 Spark处理过程-转换算子和行动算子

行动算子是触发 Spark 计算的“触发点”，因为 Spark 的 RDD 是懒惰计算的，只有在执行行动算子时，才会真正开始计算。作用：对 RDD 中的每个元素应用给定的函数 f，将每个元素转换为另一个元素，最终返回一个新的 RDD。作用：筛选出 RDD 中满足函数 f 条件（即 f 函数返回 true）的元素，返回一个新的 RDD，新 RDD 中的元素类型与原 RDD 相同。作用：对 RDD 中的每个元素应用函数 f，函数 f 返回一个可遍历的集合，然后将这些集合中的元素扁平化合并成一个新的 RDD。

2025-05-13 08:49:33 562

原创通过jps命令，可以看到如下进程名，请解释一下它们各自是哪个命令产生的，有什么作用？

作用：是 YARN（Yet Another Resource Negotiator）中的节点代理，负责管理单个节点上的资源使用，包括内存、CPU 等，监控容器的运行状态，并向 ResourceManager 汇报节点的资源使用情况和容器的状态。作用：与 JobHistoryServer 类似，用于记录和提供 YARN 应用程序的历史信息，包括应用程序的运行时间、资源申请情况、容器的启动和停止时间等，帮助用户了解应用程序在集群中的运行历史，以便进行性能调优和问题诊断。命令本身产生的进程。

2025-05-13 08:32:25 374

原创搭建spark-local模式

在安装Spark时，它就提供了一些示例程序，我们可以直接来调用。进入到spark-local，运行命令spark-submit命令。mv是linux的命令，这里的 \ 是换行输入的意思，整体的代码就只有一句，只不过太长了，我们把它拆开成几个部分来输入，其中\ 的意思就是这里写不下，写在下一行。请注意，它并不会产生新的文件，而是直接在控制台输出结果。接下来的操作，我们把它上传到集群中的节点，并解压运行。1.打开etc/profile.d/my_env.sh文件中，补充设置spark的环境变量。

2025-05-12 20:16:52 382

原创 Spark和Hadoop之间的对比和联系

常结合使用：在实际的大数据项目中，通常会将 Hadoop 和 Spark 结合起来使用，充分发挥 Hadoop 在批处理和数据存储方面的优势，以及 Spark 在实时计算和交互式查询方面的优势，共同构建完整的大数据处理平台。Hadoop 为 Spark 提供基础：Hadoop 的 HDFS 可以为 Spark 提供可靠的分布式数据存储，Spark 可以运行在 Hadoop 集群上，利用 Hadoop 的资源管理和调度功能来执行任务。

2025-05-12 20:14:03 324

原创如何配置环境变量HADOOP_HOMEM、AVEN_HOME？不配置会怎么样

hadoop集群我们配置好了，要与它进行交互，我们还需要准备hadoop的客户端。要分成两步：下载hadoop包、配置环境变量。1. 找到资料包路径下的Windows依赖文件夹，拷贝hadoop-3.1.0到非中文路径（比如d:\hadoop-3.1.0）2. 新建HADOOP_HOME环境变量,值就是保存hadoop的目录。（二）不配置环境变量的影响不配置 HADOOP_HOME。4.验证Hadoop环境变量是否正常。（一）hadoop客户端环境准备。3.配置Path环境变量。

2025-05-12 20:10:44 295

原创流量统计实例

【代码】流量统计实例。

2025-05-12 20:06:31 134

原创序列化反序列化实例

【代码】序列化反序列化实例。

2025-05-12 20:03:31 167

原创数据清洗

代码说明：NullWritable就等价于null，context.write(value,NullWritable.get())就表示只有key，没有value。代码说明：reduceTask为0,表示没有reduce阶段，程序会根据Map函数的结果把内容输出。最终输出的文件个数与mapperTask的数量一致。<偏移量，第一行的内容> → <通过刷选之后的第一行的内容，null>

2025-05-12 20:01:35 166

原创 mapreduce的工作原理

MapReduce 是一种分布式计算框架，用于处理和生成大规模数据集。它将任务分为两个主要阶段：Map 阶段和 Reduce 阶段。开发人员可以使用存储在 HDFS 中的数据，编写 Hadoop 的 MapReduce 任务，从而实现并行处理。

2025-05-12 19:58:46 312

原创 Hadoop集群的常用命令

Hadoop集群的常用命令涵盖了文件系统操作、作业管理、集群监控等多个方面。

2025-05-12 19:57:21 295

原创如何调整yarn.nodemanager.vmem-pmem-ratio参数？

yarn.nodemanager.vmem-pmem-ratio

2025-05-12 19:51:38 386

原创 hadoop集群配置-scp拓展使用

任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目录拷贝到hadoop102上。分析：使用scp进行拉取。分析：使用scp进行搭桥。先登录到hadoop2。登录hadoop101。

2025-05-12 19:48:56 160

原创 hadoop集群配置-scp命令

（1）在两台虚拟机（hadoop100、hadoop101）都已经创建好了/opt/module,/opt/software两个目录。现在的目标是：要把hadoop100上的jdk文件夹拷贝到hadoop101中的相同的目录下。（3）$user@host:$pdir/$fname: 目的地用户@主机:目的地路径/名称。（2）在hadoop100这台机器中已经安装了jdk和hadoop。把hadoop100和hadoop101都启动。（2）$pdir/$fname: 要拷贝的文件路径/名称。

2025-05-12 19:46:20 139

原创在虚拟机上安装hadoop

请注意，我们已经将hadoo解压到了/opt/module/hadoop-3.1.3目录下。导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。/etc/profile. d/my_ env.sh文件。使用source命令让配置文件生效。

2025-05-12 19:43:39 157

原创虚拟机上安装java

etc/profile 是系统级别的全局配置文件，当用户进行登录操作时，该文件会被执行，而/etc/profile脚本里包含了对/etc/profile.d目录下脚本的扫描和执行逻辑。所以，我们可以把需要用到的环境变量配置到一个新的.sh文件中，再把这个新的文件放在profile.d目录下。-f:指定要处理的归档文件名，后面跟着的jdk-8u212- -linux -x64. tar.gz就是要解压的文件。使用的命令是: vi /etc/profile. d/my_ env. sh。

2025-05-12 19:40:01 258

原创虚拟机配置IP

linux中，ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中，这里使用 vi 编辑器去修改即可！注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。如果不进行设置，每次启动机器时都可能是随机的IP，不方便我们后续操作。让所有的vm配置的虚拟机使用NAT时，它们的网段都是一致的。具体设置为：进入虚拟机，修改对应的IP。具体操作是：点击编辑→虚拟网络编辑器。（3）设置虚拟机的IP。

2025-05-12 19:32:45 187

原创如何在idea中写spark程序

在项目的 src/main/scala 目录下创建新的 Scala 类，例如 SparkApp.scala。.master("local[*]") // 根据实际情况设置运行模式，这里 local[*] 表示本地多线程运行。右键点击编写的 Scala 类，选择 Run 'SparkApp' 运行程序。添加完依赖后，在 IDEA 中刷新 Maven 或 Gradle 项目，让其下载所需的依赖包。请将 "path/to/your/file.txt" 替换为实际的文件路径。

2025-04-28 20:03:36 883

原创搭建spark yarn 模式的集群集群

在大数据处理领域，Apache Spark 是一个强大的分布式计算框架，而 YARN（Yet Another Resource Negotiator）是 Hadoop 的资源管理系统。将 Spark 运行在 YARN 模式下，可以充分利用 YARN 强大的资源管理和调度能力，实现资源的高效利用和任务的灵活分配。本文将详细介绍如何搭建 Spark YARN 模式的集群，让你轻松上手大数据处理环境的搭建。SSH 无密码登录：配置集群节点之间的 SSH 无密码登录，方便节点间通信。四、配置 Spark。

2025-04-28 19:57:45 1069

空空如也

空空如也