仙女打代码-CSDN博客

原创自定义分区器-基础

这就类似于 Spark 中的分区，每个分区的数据可以在不同的计算节点上同时进行处理，从而加快整个数据处理的速度。MyPartitioner类继承自Partitioner，实现了numPartitions方法指定分区数量为 3 ，实现getPartition方法，根据球队名称判断分区索引，湖人对应分区 0，火箭对应分区 1，其他球队对应分区 2。在 Spark 中，RDD 是数据的集合，它会被划分成多个分区，这些分区可以分布在不同的计算节点上，就像图书馆的书架分布在不同的房间一样。

2025-05-14 14:30:39 1062

原创 RDD的自定义分区器-案例

对电商订单数据进行处理，订单数据包含用户 ID 和订单金额，不同地区的用户有不同的 ID 范围。我们会按照地区对订单数据进行分区，这样做能让相同地区的订单数据处于同一分区，便于后续按地区进行统计金额分析。创建input文件夹，在input下新建记事本文件，在src下创建新的scala文件，开始写功能代码。1001-2000号分成一个区；0-1000号分成一个区；2001~号分成一个区；创建新的maven项目。内容就是前面的实例数据。

2025-05-14 14:30:20 135

原创 Spark处理过程-案例数据清洗

以下是 10 条符合上述示例中数据格式（姓名,年龄,性别）的测试数据，包含了一些可能需要清洗掉的无效数据，你可以将其保存为一个文本文件，用于测试上面的数据清洗程序。“李四” 的年龄为空，“赵六” 和 “吴九” 的年龄不是有效的数字，在执行数据清洗程序时，这些行应该会被过滤掉。创建input文件夹，在input下新建记事本文件，内容就是前面的实例数据。假设你有一个包含用户信息的文本文件，每行格式为姓名,年龄,性别，需要。教师展示要清洗的数据，请同学们观察，并回答应该要清洗掉哪些数据？教师讲授：项目的需求。

2025-05-13 14:30:00 182

原创 VMware Workstation 17 Pro 虚拟机安装教程

CentOS 在 Linux 内核的基础上，添加了一系列的软件包、工具和配置，形成了一个完整的、可直接使用的操作系统。Linux：是一种开源的操作系统内核，它提供了操作系统最核心的功能，如进程管理、内存管理、文件系统管理、设备驱动管理等底层架构和功能。CentOS 和 Linux 的关系是：CentOS 是基于 Linux 内核构建的一个具体的操作系统发行版，它们属于具体与抽象、局部与整体的关系。如果我们选择这个命令，并选中一个现有的iso文件，那么就表示我们将创建一个由这个映像文件而安装的系统。

2025-05-13 11:01:30 1939

原创给虚拟机配置IP

虚拟机IP这里一共有三个地方要设置，具体说明如下：（1）配置vm虚拟机网段如果不进行设置，每次启动机器时都可能是随机的IP，不方便我们后续操作。具体操作是：点击编辑→虚拟网络编辑器选择VMnet8，要改动两个地方（注意：它会需要管理员权限）：子网IP改成192.168.10.0让所有的vm配置的虚拟机使用NAT时，它们的网段都是一致的。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。（2）配置Windows本地虚拟网卡，让本机也可以访问虚拟机。

2025-05-13 10:47:18 400

原创教你快速配置host

先给大家演示一个小把戏：强制戒除美好生活 - 让我们的电脑不能访问douyin。只需要一个步骤，一句代码设置。打开文件：C:\Windows\System32\drivers\etc\hosts，并在文件的最后补充一句：注意 douyin.com的前面有一个空格。修改保存之后，请再次去浏览器中去访问抖音.com。看看，是不是已经打不开啦？请大家去自己的电脑上去操作一次！好的，我们来讲解一下这个过程到底发生了什么？

2025-05-13 10:43:49 1334

原创克隆虚拟机组成集群

在随后的设置中，请注意两点：（1）要给其他两台虚拟机取不同的名字。要注意，这里是虚拟机的名称，而不是它的hostname。（2）要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下，方便我们统一管理。克隆之后，我们得到了hadoop101,hadoop102，由于它们是从hadoop100直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。vm软件提供了克隆的功能，它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。

2025-05-13 10:29:49 184

原创在虚拟机上安装hadoop

etc/profile 是系统级别的全局配置文件，当用户进行登录操作时，该文件会被执行，而/etc/profile 脚本里包含了对/etc/profile.d 目录下脚本的扫描和执行逻辑。要运行 hadoop 程序我们先要去安装它的基础环境，因为它是基于java的，所以我们要先去安装 java.JDK，然后再去安装hadoop。所以，我们可以把需要用到的环境变量配置到一个新的.sh文件中，再把这个新的文件放在profile.d目录下。的方式来获取配置信息，而不需要在代码中硬编码特定的路径或设置。

2025-05-13 10:27:31 342

原创教你如何创建Maven项目

步骤一：打开 IDEA，点击 File -> Settings（Windows/Linux）或者 IntelliJ IDEA -> Preferences（Mac），进入设置界面，然后找到 Build, Execution, Deployment -> Build Tools -> Maven。步骤三：可以在 User settings file 中指定 settings.xml 文件的路径（一般使用默认路径即可），Local repository 中指定本地仓库的路径，配置完成后点击 OK 保存设置。

2025-05-13 10:20:44 811

原创教你了解数据压缩

有损压缩则会在一定程度上牺牲数据的精度来换取更高的压缩比，适用于对数据质量损失有一定容忍度的场景，如图像、音频、视频等多媒体数据。即使你的MapReduce的输入输出文件都是未压缩的文件，你仍然可以对Map任务的中间结果输出做压缩，因为它要写在硬盘并且通过网络传输到Reduce节点，对其压缩可以提高很多性能，这些工作只要设置两个属性即可，我们来看下代码怎么设置。数据压缩是指在不丢失或尽可能少丢失数据信息的前提下，通过特定的算法和技术，对原始数据进行重新编码和处理，以减少数据存储空间或传输带宽的过程。

2025-05-13 10:15:51 440

原创一分钟教你学会Yarn

通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源，这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。队列内部又可以垂直划分，这样一个组织内部的多个成员就可以共享这个队列资源了，在一个队列内部，资源的调度是采用的是先进先出(FIFO)策略。一台机器上有很多的容器，有的容器大，有的容器小。3、现在，如果B用户在其他作业仍在运行时开始第二个作业，它将与B的另一个作业共享其资源，因此B的每个作业将拥有资源的四分之一，而A的继续将拥有一半的资源。用户提交的每个应用程序均包含一个AM。

2025-05-13 10:09:55 723

原创 spark的安装以及单机模式的运行

在安装Spark时，它就提供了一些示例程序，我们可以直接来调用。进入到spark-local，运行命令spark-submit命令。4.重命名，把解压后的文件夹改成spark-local。mv是linux的命令，这里的 \ 是换行输入的意思，整体的代码就只有一句，只不过太长了，我们把它拆开成几个部分来输入，其中\ 的意思就是这里写不下，写在下一行。接下来的操作，我们把它上传到集群中的节点，并解压运行。1.打开etc/profile.d/my_env.sh文件中，补充设置spark的环境变量。

2025-05-13 09:33:12 274

原创在spark里通过jps命令，看到的进程

与 Spark 的 JobHistoryServer 类似，它收集 MapReduce 作业的运行信息，包括作业的提交时间、执行时间、任务的运行状态、输入输出统计等，以便用户可以查看过去运行的 MapReduce 作业的详细信息，用于分析作业性能、调试问题以及进行容量规划等。作用：是 HDFS 的核心组件，负责管理文件系统的命名空间，维护文件系统树以及文件树中所有的文件和目录的元数据信息，包括文件的权限、副本数量、数据块的位置等。作用：是 Spark 集群的主节点，负责管理整个集群的资源和任务调度。

2025-05-13 09:26:54 595

原创 Spark处理过程-行动算子

行动算子是触发 Spark 计算的“触发点”，因为 Spark 的 RDD 是懒惰计算的，只有在执行行动算子时，才会真正开始计算。它会触发 Spark 作业的实际执行，对 RDD 中的所有元素进行计数，并将最终的计数结果返回给驱动程序。f: T => Unit：这是一个函数，它接收一个类型为 T 的元素（T 为 RDD 中元素的类型），并对该元素执行相应的操作，但不返回任何值（返回类型为 Unit）。返回值：返回一个包含 RDD 中所有元素的数组，数组元素的类型与 RDD 中元素的类型一致。

2025-05-13 09:03:10 381

原创 Spark处理过程-转换算子

它的核心作用是对具有相同键的所有值进行聚合操作，通过用户提供的聚合函数将这些值合并成一个结果，从而实现数据的归约和统计。：对 RDD 中的每个元素应用给定的函数 f，将每个元素转换为另一个元素，最终返回一个新的 RDD。：筛选出 RDD 中满足函数 f 条件（即 f 函数返回 true）的元素，返回一个新的 RDD，新 RDD 中的元素类型与原 RDD 相同。：对 RDD 中的每个元素应用函数 f，函数 f 返回一个可遍历的集合，然后将这些集合中的元素扁平化合并成一个新的 RDD。

2025-05-13 08:47:53 536

原创在sheel中运行Spark ——RDD

在部分分区数据丢失时，Spark可以通过这个依赖关系重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。Resilient Distributed Dataset 叫做弹性分布式数据集，是Spark中最基本的数据抽象，是分布式计算的实现载体，代表一个不可变，可分区，里面的元素并行计算的集合。RDD的分区是RDD数据存储的最小单位。举个生活中的例子：高考的时候，每个班的同学都打散到不同的考场，此时的高3（8）班就是一个抽象的概念，在实际中，这个班级的学生可能分布在5个不同的考场。

2025-05-13 08:40:50 913

原创 Spark的缓存

当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。MEMORY_ONLY_SER：将 RDD 以序列化的 Java 对象形式存储在内存中，相较于 MEMORY_ONLY，序列化后占用的内存空间更小，但读取时需要进行反序列化操作，会带来一定的性能开销。RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的行动算子时，该RDD将会被缓存在计算节点的内存中，并供以后重用。

2025-05-13 08:33:52 494

原创如何在idea中写spark程序

若要使用 Scala 编写 Spark 程序，需在 IntelliJ IDEA 中安装 Scala 插件。：从 JetBrains 官网下载并安装适合你操作系统的 IntelliJ IDEA 版本，建议使用社区版或旗舰版。：确保系统中已安装 Java 开发工具包（JDK），建议使用 Java 8 及以上版本，并配置好。根据实际需求，你还可以添加其他 Spark 模块的依赖，如。方法，程序会以本地模式运行，适合开发和调试。，在搜索框中输入 “Scala”，然后点击。，确保 JDK 版本正确配置，点击。

2025-04-28 20:04:48 548

原创如何搭建spark yarn模式的集群

所有节点需安装好 Java（建议 Java 8 及以上版本）、Hadoop（版本 2.7 及以上）和 Spark（版本 2.4.x 或 3.0.x 均可）。：准备至少 3 台服务器，1 台作为主节点（NameNode、ResourceManager），其余作为从节点（DataNode、NodeManager）。若作业成功运行并输出计算结果，表明 Spark YARN 集群搭建成功。在所有节点上安装 Java 并配置环境变量，编辑。将 Spark 压缩包解压到指定目录，例如。

2025-04-28 19:59:39 474

原创在spark集群中搭建standalone

进入到hadoop100机器，切换目录到/opt/module/spark-standalone/sbin下，运行命令 ./start-all.sh。进入/opt/module/把解压的内容重命名一下，mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。注意，这里不要省略./,它表示的是当前目录下的start-all命令，如果省略了./，它就会先去环境变量PATH中指定的目录来找这个命令。11.查看启动效果。（linux，ip设置，能ping 百度），免密互联。

2025-04-22 11:03:56 375

原创 spark和Hadoop之间的对比和联系

Spark 诞生主要是为了解决 Hadoop MapReduce 在迭代计算以及交互式数据处理时面临的性能瓶颈问题。Hadoop MR 框架从数据源获取数据，经过分析计算后，将结果输出到指定位置，核心是一次计算，不适合迭代计算。spark 框架spark Core:实现了Spark的基本功能，包含任务调度，内存管理，错误恢复，存储系统交互等模块。spark SQL: 是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用SQL或者Apache Hive 版本的HQL来查询数据。

2025-04-22 08:41:00 1124

原创一分钟教你学会流量统计

但是，这里有一个问题：map和reduce这两个函数都是通过key,value的方式来进行数据交互的，这里的key可以设置为手机号，而value值就比较复杂，它有两个信息：上行流量和下行流量要统计。而这就必然引出一个新的问题：因为key,value是需要进行磁盘的读写的，所以它们必须要能序列化，如果我们创建一个新的类来描述流量数据，就必须也实现序列化。在map阶段，我们读入每一行数据，通过空格分割，切分字段，抽取手机号，上行流量和下行流量。通过上面的分析，我们总结出基本步骤是。运行程序，查看效果。

2025-04-16 01:00:00 218

原创 Hadoop的序列化

序列化的时候，它会自动被调用，将一个内存中的对象，序列化成为一个字节序列。如果序列化的属性不是Hadoop的序列化类型，就要调用相应的方法把它进行序列化。Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，Header，继承体系等），不便于在网络中高效传输。下面我们来看一个例子：通过代码来定义一个类，并创建它的一个对象，把这个对象保存到文件中（序列化），然后再写代码读取这个文件并还原回来。（五）hadoop的序列化。

2025-04-15 08:45:55 412

原创如何配置HADOOP_HOME环境变量

生命周期：Maven 定义了一套标准的项目构建生命周期，主要包括 `clean`、`default` 和 `site` 三个生命周期。每个生命周期由多个阶段（phase）组成，例如 `default` 生命周期包含 `compile`、`test`、`package`、`install`、`deploy` 等阶段。Maven 可以帮助你管理这些依赖项，你只需在项目的 `pom.xml` 文件中声明所需的依赖，Maven 就会自动从远程仓库下载这些依赖项，并将其添加到项目的类路径中。

2025-04-15 08:42:45 913

原创一分钟教你学会数据清洗

利用工具的去重功能，Excel 中可通过 “删除重复项” 按钮，pandas 中使用drop_duplicates()函数，一键就能删除这些重复数据，保证数据的唯一性。数据格式不一致也很麻烦。如员工薪资，有的以 “元” 为单位，有的以 “万元” 为单位。在数据的世界里，原始数据就如同未经雕琢的璞玉，往往夹杂着杂质，而数据清洗便是去除这些杂质，让数据闪耀光芒的关键步骤。别担心，接下来，只需一分钟，就能初步掌握数据清洗的奥秘。经过这几步，原本杂乱的数据就会变得整洁有序，为后续的数据分析和挖掘工作打下坚实基础。

2025-04-02 15:54:13 212

原创 MapReduce 的工作原理

MapReduce 是一种编程模型，用于大规模数据集的并行运算。

2025-03-31 19:52:34 550

原创 Hadoop 集群的常用命令

hadoop fs -chown <owner>:<group> <path>: 修改文件所有者。hadoop fs -put <local> <hdfs>: 从本地复制文件到HDFS。hadoop fs -get <hdfs> <local>: 从HDFS复制文件到本地。hadoop fs -chgrp <group> <path>: 修改文件所属组。hadoop fs -chmod <mode> <path>: 修改文件权限。hadoop fs -cp <src> <dst>: 复制文件。

2025-03-31 19:49:20 415

原创 vi编辑器的使用

替换：:%s/old/new/g全局替换，:%s/old/new/gc全局替换并逐个确认。keyword向前查找；删除行：dd删除当前行，ndd删除当前行及下面的n - 1行（如3dd删除 3 行）。不保存退出：若文件未修改，在命令模式输入:q；保存并退出：在末行模式（命令模式下按:进入）输入:wq 或 :x。在命令模式下按:进入末行模式，可进行文件保存、查找替换等操作。基本移动：使用h（左）、j（下）、k（上）、l（右）键。切换到下一个文件：在末行模式输入:bn。切换到上一个文件：在末行模式输入:bp。

2025-02-25 11:39:31 391

空空如也

空空如也