一瓣橙子-CSDN博客

用map，将accounts里的line作为input，经过计算得到(fields(0), fields)的输出，其中fields是将每行的line用逗号分割成数组。创建一个RDD，用户id为key，用户访问的ip地址作为value。使用map创建Pair RDD，User ID作为key，整数1作为value（user ID是每行的第三个字段）Spark并没有读文件，直到你执行了action操作，比如统计数据集行数。连接weblog数据和账户数据，得到以user ID为key的数据集。

2025-07-08 15:23:07 1041

原创 7.7晚自习作业

表示：scala。

2025-07-07 23:20:33 2899 1

原创 7.7日实验03-Spark批处理开发（2）

里的数据，每个XML文件包含了客户在指定月份活跃的设备数据。读取XML文件并抽取账户号和设备型号，把结果保存到。验证结果（在Linux终端执行）读取数据（像处理日志一样）测试解析（查看第一条记录）保存结果（先清理旧数据）定义题目提供的解析函数。查看结果样例（10条）拷贝数据到HDFS的。

2025-07-07 15:51:02 408

原创 7.7日实验03-Spark批处理开发（1）

读取本地文件来创建RDD。Spark并没有读文件，直到你执行了action操作，比如统计数据集行数。你可以看到多个part-xxxxx文件。查看文件内容确认结果是正确的。尝试执行collect操作来显示RDD的所有数据。定义新的RDD，日志文件的每一行只包含IP地址。创建只包含请求图片JPG文件的RDD。把每一行映射成一个数组,查看前5条。在终端窗口或Hue文件浏览器，列出。使用take查看前10行数据。然后可以看到所有可用的方法。可以看到所有可用的转换操作。在日志中返回每行的长度。从数据文件创建RDD。

2025-07-07 15:10:16 328

原创 7.7日 HBase实验

HBase的更新本质上是写入新版本的数据，旧版本数据仍然保留（根据版本设置保留）如果需要查看多个历史版本（比如修改记录），需要修改列族的。默认情况下会保留1个版本，可以通过。命令查看表的VERSIONS设置。当你更新数据时，旧版本会。每个单元格（cell）

2025-07-07 10:50:38 278

原创第二阶段实验7.4

通过monitor_system.sh生成系统监控数据写入/tmp/system_mon.log。使用capacity属性可以存储10000个事件。解决方法：使用cat或者tail -n。报错原因：tail无法使用通配符。来存放Flume采集的数据。

2025-07-04 10:08:31 170

原创 7.3实验部分

上传本地文件 /root/dataExercise/people.txt 到 /dw/yourname/input 目录下。列出 /dw/yourname/input 目录内容，并显示 people.txt 文件前5行内容。列出 /dw/yourname/customers 目录内容，并显示部分导入数据内容。数据格式为文本，字段分隔符为\t。主机：localhost。二、Sqoop数据导入。密码：bimao123。一、HDFS基础操作。

2025-07-03 22:03:40 539

原创缺少关键的 MapReduce 框架文件

Hadoop 集群缺少关键的 MapReduce 框架文件。

2025-07-03 16:00:40 219

原创怎么进入9870端口

的输出来看，Hadoop 的核心服务（NameNode、DataNode、ResourceManager、NodeManager 等）都已经正常运行，（Hadoop 3.x 标准），但 Cloudera 发行版（CDH）有时会修改默认配置，所以需要进一步检查。配置来看，NameNode 的 HTTP 服务绑定到了 master:9870。，在 CDH 6.2.0 中，NameNode Web UI 的默认端口是。，必须使用 http://master:9870。即使服务运行正常，防火墙仍可能阻止外部访问。

2025-07-03 15:10:04 364

原创 11.3.3 更新和删除数据

Hive 从 0.14 版本开始支持 UPDATE和 DELETE操作，但UPDATE和DELETE操作只能在上执行。而支持 ACID，需要满足以下条件：（1）表的存储格式必须是（2）表必须进行（3）Table property 中参数 transactional（事务）必须设定为 trueinsertupdadtedelete。

2025-06-26 00:52:38 722

原创 11.3.2 INSERT插入数据

DML （Data Manipulation Language），即数据操作语言，是用来。数据操作主要是和，主要操作命令有 LOAD和 INSERT等。

2025-06-25 11:41:52 705

原创 11.3.1 LOAD装载数据

理论部分理论部分DML （Data Manipulation Language），即数据操作语言，是用来。数据操作主要是和，主要操作命令有LOAD和INSERT等。语法结构使用LOAD可以方便的将或者加载到 Hive 表中。语句解析（1）LOADLOAD操作本地文件系统是到 Hive 表所在的位置，LOAD操作 HDFS 是到 Hive 表所在的位置。（2）LOCAL关键字：如果指定了关键字LOCALLOAD命令会去查找中的 filepath。如果没有指定LOCAL。

2025-06-25 10:01:26 624

原创 11.2.4 Hive分桶表操作

桶表，是对进行来实现的，通过将一个列名下的数据分成几个桶（默认值是-1，可自定义），并使。例如按照电影上映时间分为5个桶，就是取电影上映时间的哈希值对5进行取模运算，按照取模结果（余数）对数据分桶，取模结果（余数）相同的会分在一个桶中。桶表也是 Hive 的一种表，和其它 Hive 中的表不同的是，。而且 Hive 还可以把管理表（内部表）、外部表和分区表组织成桶表。将管理表（内部表）、外部表和分区表组织成桶表有以下几个目的。（1）

2025-06-25 09:29:17 914

原创 11.2.5 Hive修改表操作

理论部分理论部分在 Hive 中，可以使用子句来修改表的属性，实际上也就是修改表的元数据，而不会修改表中实际的数据。这些语句可用于修改表模式中出现的错误、改变分区路径以及其它一些操作。一、重命名表/分区1. 重命名表语法结构此语句允许用户对表进行重命名。从版本 0.6 开始，表的重命名会移动其在 HDFS 的位置。从版本 2.2.0 起，重命名已经更改，因此只有在不使用location子句并在其数据库目录下创建管理表时，才会移动表的 HDFS 位置。

2025-06-23 19:26:23 895

原创 11.2.3 Hive分区表操作

特性普通列分区列存储方式和其他列一起存储单独作为目录结构查询性能需要全表扫描只扫描相关分区目录数据组织逻辑区分物理分区DDL语句在字段定义中在partitioned by子句中分区本质上是一种物理数据组织方式，通过预先将数据分类存储来加速查询，特别是当查询条件包含分区字段时，可以跳过不相关的数据目录，显著提高查询效率。在没有load之前，就算创建了分区的概念，HDFS文件夹下也不会有文件只有在load之后查看才会有对应的文件夹。

2025-06-23 11:59:38 760

原创 11.2.2 Hive数据表操作

数据表操作之前先要明确对哪种类型的表进行操作。常见的数据表的类型有和。默认创建的表都是所谓的，有时也被称为。意味着由 Hive 来管理表中的数据，也可以叫作。Hive 会默认将数据保存到下。如果当一份数据需要被多种工具分析时，比如 Pig、Hive 等，那么就意味着这份数据的所有权并不由 Hive 拥有，那么这种情况下就可以创建一个外部表来指向这份数据。关键字 external指明该表是外部表，location子句指明数据存放在 HDFS 的某个目录下。

2025-06-23 10:13:18 536

原创 11.2.1 Hive数据库操作

Hive 中的数据库和常见的关系型数据库中的数据库的作用几乎是一样的，在生产环境中，如果表非常多的话，一般都会用数据库把表组织起来，形成逻辑组，这样可以。Hive 数据库也是的，它的。如果用户没有显示指定数据库，那么将会使用默认的 default。

2025-06-23 09:30:09 529

原创 9.1 Spark环境部署

Spark最初由美国加州伯克利大学（UCBerkeley）的AMP（Algorithms, Machines and People）实验室开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。它提供了Java、Scala、Python和R中的高级API，以及支持通用执行图的优化引擎。

2025-06-18 15:17:57 647

原创 2.1 HDFS的shell命令——增删改查

之前通过Hadoop伪分布式集群搭建，已经将我们的基础环境配置完成。我们在此基础上，将进入本节知识点学习，作为Hadooop的文件存储系统，结合自身，为我们大数据的大数据集存储提供保障。

2025-06-10 11:22:27 682

原创成员变量和成员方法

类中不仅可以定义属性用来记录数据，还可以定义函数，其中类中定义的属性（变量）我们称之为成员变量，类中定义的行为（函数），我们称之为成员方法。当我们使用类对象调用方法的时候，self会自动被Python传入。self关键字，尽管在参数列表中，但是穿残的时候可以忽略他。可以看到，方法的定义的函数中，有一个self关键字。在方法内部，想要访问类的成员变量，必须使用self。self关键字是成员方法定义的时候必须填写的。它用来表示类对象自身的意思。

2023-09-26 11:57:40 152 1

原创 Python文件写入和追加

注：使用write的时候内容并未写入文件，而是在内存中，我们称之为缓冲区。当调用flush的时候，内容才会真正写入文件。f.write('内容')

2023-09-26 11:07:49 309 1

原创 Python文件处理

open函数：语法：name:文件名称路径mode:访问模式（只读r，只写w，追加a）

2023-09-26 10:49:54 171 1

原创 GO随笔(ch1\lissajous)

综上所述，这段代码的作用是启动一个HTTP服务器，监听本地主机的8000端口，并使用默认的路由器来处理接收到的HTTP请求。综上所述，这段main代码的作用是根据命令行参数的不同，以不同的方式展示生成的Lissajous曲线的动画或图像。这样可以使代码更具可读性，并且如果需要更改调色板中的颜色顺序，只需修改常量的值即可，而不必在整个代码中查找和替换数字。默认的路由器会根据请求的URL路径来匹配注册的处理函数，并调用相应的处理函数来处理请求。添加到动画的延迟序列中，并将生成的图像帧添加到动画的图像序列中。

2023-08-11 11:37:29 159 1

原创 GO随笔(ch1\dup4)

本段代码中if后面跟着的是对从系统输入文本的判断，如果输入的是换行键(len(args) == 0)，那么跳转到该判断中，此时执行的是和dup功能一致的从终端输入文本的计数，其中也加入了两if，其中·第一个if是判断如何结束，这样除了使用ctrl+c强制停止，也可以直接输入换行符进行停止，第二个if是对错误类型的判断和输出。自此第一个对从终端输入文本判断计数的功能完成。第二个功能是对整个文件全部读取然后再进行split操作进行分行，最后进行统计，与dup3一致。

2023-08-04 09:33:36 257 1

原创 GO随笔（ch1\dup3）

则是每次迭代中的当前行内容。循环将依次遍历字符串切片中的每一行，并执行相应的操作。函数接受一个文件名作为参数，并返回文件的内容和一个错误对象。)进行分割，返回一个字符串切片，其中每个元素都是原始字符串中的一行。功能:一口气把全部输入数据读到内存中，一次分割为多行，然后处理它们。变量将包含文件的内容，否则将返回一个非空的错误对象。，其中包含有关读取失败的详细信息。包来读取文件内容并将其存储在。将字符串按照换行符(

2023-08-03 16:05:56 71

原创 GO随笔(ch1\dup2)

所以整段代码中counts是map型，files是切片，f，err是指针...其中counts用来记录每一行的重复情况，与dup1一致，files记录文件，如果回车（即满足len(files) == 0）则转入输入文件名为空的循环，如果不是空格，则进入判断文件名是否有效的循环。函数是一段独立的代码块，可以通过函数名直接调用，不需要通过接收者。短变量声明的左边变量的类型是根据右侧表达式的类型来推断的。是一个函数调用，用于打开指定路径的文件，并返回一个。函数，用于打开指定路径的文件，并返回一个。

2023-08-02 16:11:38 80 1

原创 GO随笔（ch1\dup1）

这段代码的意思是遍历一个名为counts的集合，其中每个元素包含一个行（line）和一个计数（n）。如果计数（n）大于1，则使用格式化字符串将计数（n）和行（line）打印出来，格式为"计数（n）\t行（line）"。：前文未提到input.Text()和input.Scan()，这两个其实是前文定义的input的两个方法，GO语言中方法的定义和python中类的方法定义很相似。，其中键（key）的类型是字符串（string），值（value）的类型是整数(int)。首先解释make函数，在Go语言中，

2023-08-01 16:31:08 90 1

m0_57833768的博客

原创作业03-SparkSQL开发

原创实验03-Spark批处理开发