
Hadoop_MapReduce_hdfs
文章平均质量分 82
MapReduce、Hdfs
骑着蜗牛ひ追导弹'
鲸落于海,星沉于洼,风隐于密林,蝉鸣漏进夏至。
抖音:51288024251 第七章欢迎您来听歌!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【MapReduce】MapReduce本地模式与数据库的交互
文章目录MapReduce读写数据库1.为什么要读写数据库2.如何实现读写数据库3.需求 ---- 从数据库中读取数据3.1.DBInputFormat类3.2.代码实现step1:编写GoodsBean类step2:编写Mapper类获取数据并写出step3:编写Driver驱动类查看结果4.需求 ---- 向数据库中写入数据4.1 DBOutputFormat类4.2 代码实现step1:编写GoodsBean类step2:编写Mapper类获取数据step3:编写Reducer类输出数据step4..转载 2021-03-30 20:09:45 · 999 阅读 · 0 评论 -
【MapReduce】MR与远程数据库的交互
文章目录MR与远程数据库的交互♦ 创建数据库及其表数据一、远程数据库数据——保存到本地二、远程数据库数据——jar包运行_保存到HDFS三、处理后的数据——输出到数据库MR与远程数据库的交互♦ 创建数据库及其表数据Windows系统、Linux系统上都使用mysql创建表,录入数据~DROP TABLE IF EXISTS `school`.`student`;CREATE TABLE `school`.`student` (`id` int(11) NOT NULL default..原创 2021-03-25 19:35:01 · 450 阅读 · 0 评论 -
【MapReduce】程序打成jar包上传集群运行
文章目录一、生成jar包① 通过maven自动生成② 手动打jar包二、集群运行_路径问题① 内置路径② 参数形式输入路径一、生成jar包① 通过maven自动生成直接找到maven工具,点击package即可~② 手动打jar包找到project structure -> artifacts -> + ->jar -> empty,然后选择需要打包的项目(注意这里是按照Driver类来选的)ok后,找到build -> build artifa..原创 2021-03-18 11:37:02 · 2782 阅读 · 0 评论 -
【FastJson】转换处理JsonArrays、JsonArray文件转换为txt文件
文章目录转换处理JsonLine、JsonArray、JsonArrays文件转换为txt文件一、JsonLine文件转化二、JsonArray文件转化三、JsonArays文件转化转换处理JsonLine、JsonArray、JsonArrays文件转换为txt文件一、JsonLine文件转化在这里插入代码片返回顶部二、JsonArray文件转化JSONWriter writer = new JSONWriter(new FileWriter("/tmp/huge.json"));..原创 2021-03-12 08:26:33 · 1948 阅读 · 0 评论 -
【FastJson】Fastjson 使用指南
一、什么是Fastjson?Fastjson是阿里巴巴的开源JSON解析库,它可以解析JSON格式的字符串,支持将Java Bean序列化为JSON字符串,也可以从JSON字符串反序列化到JavaBean。Fastjson使用场景Fastjson已经被广泛使用在各种场景,包括cache存储、RPC通讯、MQ通讯、网络协议通讯、Android客户端、Ajax服务器处理程序等等。二、Fastjson的优点2.1 速度快Fastjson相对其他JSON库的特点是快,从2011年Fastjs.转载 2021-03-11 08:51:58 · 525 阅读 · 0 评论 -
【Hadoop】企业优化
文章目录一、MapReduce跑得慢的原因二、MapReduce优化方法※ 数据输入※ Map阶段※ Reduce阶段※ I/O传输※ 数据倾斜问题※ 常用的调优参数HDFS小文件优化方法※ HDFS小文件弊端※ HDFS小文件解决方案返回顶部一、MapReduce跑得慢的原因MapReduce程序效率的瓶颈在于两点:1.计算机性能CU、内存、磁盘健康、网络2.操作优化(1) 数据倾斜(2) Map和Reduce数设置不合理(3) Map运行时间太长,导致 Reduce等..原创 2021-01-04 21:12:24 · 172 阅读 · 0 评论 -
【Yarn】Yarn 资源调度器
文章目录一、Yarn基本定义二、Yarn基本架构三、Yarn工作机制四、作业提交流程(Job)五、资源调度器• FIFO ---- 先进先出(对列)• Capacity Scheduler(容量调度器) ---- 多个FIFO组合• Fair Scheduler(公平调度器)六、任务推测执行一、Yarn基本定义Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。返回顶部二、Yar..原创 2021-01-04 20:28:37 · 400 阅读 · 0 评论 -
【Hadoop】Hadoop数据压缩
文章目录一、压缩概述二、压缩策略和原则三、MR支持的压缩编码四、压缩方式选择☼ Gzip压缩☼ Bzip2压缩☼Lzo压缩☼ Snappy压缩五、压缩位置选择六、压缩参数配置☼ 输入阶段☼ Mapper输出阶段☼ Reducer输出阶段七、压缩实操案例☼ 数据流的压缩和解压缩压缩案例 ---- org.apache.hadoop.io.compress.BZip2Codec压缩案例 ---- org.apache.hadoop.io.compress.GzipCodec压缩案例 ---- org.apa..原创 2021-01-04 17:34:06 · 574 阅读 · 0 评论 -
【MapReduce】MR 框架原理 之 数据清洗、计数器的应用
文章目录返回顶部原创 2021-01-03 17:15:35 · 1119 阅读 · 2 评论 -
【MapReduce】MR 框架原理 之 Join多种应用
文章目录返回顶部原创 2021-01-02 19:38:20 · 573 阅读 · 1 评论 -
【MapReduce】MR 框架原理 之 OutputFormat 数据输出
文章目录常见的OutputFormat实现类 ☠自定义OutputFormat案例▪ 需求分析▪ 代码实现自定义FilterOutputFormatMapper阶段Reducer阶段Driver阶段OutputFormat是MR输出的基类,所有实现MR输出都实现了OutputFormat接口。常见的OutputFormat实现类1.文本输出TestOutputFormat默认的输出格式是TestOutputFormat,它把每条记录写为文本行。它的键和值可以是任意类..原创 2021-01-01 19:55:59 · 573 阅读 · 0 评论 -
【MapReduce】MR 框架原理 之 Shuffle机制
文章目录♑ 定义♑ Map方法之后Shuffle过程 ♬ 分区 ♬ 排序 ♬ Combiner(可选) ♬ 分区归并排序 ♬ 压缩 ♬ 写磁盘♑ Reduce方法之前Shuffle过程 ♬ 拷贝 ♬ 归并排序 &n..原创 2021-01-01 18:22:11 · 367 阅读 · 0 评论 -
【MapReduce】MR 框架原理 之 ReduceTask工作机制
文章目录♑ Copy阶段♑ Merge阶段♑ Sort阶段♑ Reduce阶段设置ReduceTask并行度(个数)注意点♑ Copy阶段(1)Copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。返回顶部♑ Merge阶段(2)Merge阶段:在远程拷贝数据的同时,ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。返回顶部♑ So..原创 2021-01-01 17:46:47 · 301 阅读 · 0 评论 -
【MapReduce】MR 框架原理 之 MapTask工作机制
文章目录MapTask工作机制♑ Read阶段♑ Map阶段♑ Collect阶段♑ 溢写阶段♑ Combine阶段MapTask工作机制♑ Read阶段返回顶部♑ Map阶段返回顶部♑ Collect阶段返回顶部♑ 溢写阶段返回顶部♑ Combine阶段返回顶部.........原创 2021-01-01 17:19:18 · 773 阅读 · 1 评论 -
【MapReduce】MR 框架原理 之 Combiner局部汇总
文章目录一、Shuffle机制二、Partition分区▶ 默认分区 --- HashPartitioner▪ 案例 --- WordCount▶ 自定义Partitioner分区▪ 自定义分区基本步骤▪ 案例需求分析代码实现▶ 分区总结三、WritableComparable排序四、Combiner合并五、GroupingComparator分组一、Shuffle机制返回顶部二、Partition分区在进行数据处理的时候要求将统计结果按照条件输出到不同文件中,这是就会将数据按照不同的..原创 2020-12-31 21:00:50 · 618 阅读 · 1 评论 -
【MapReduce】MR 框架原理 之 排序
文章目录排序▶ 排序的定义▶ 排序的分类☠ 自定义排序 ---- 实现WritableComparable接口原理分析☠ WritableComparable排序案例(全排序)▪ 案例需求分析代码实现Bean类Mapper阶段Reducer阶段Driver阶段☠ WritableComparable排序案例(分区排序)▪ 案例需求分析代码实现PhonePartitioner分区类Bean类Mapper阶段Reducer阶段Driver阶段排序▶ 排序的定义排序是MapReduce框架中最重要的操..原创 2020-12-31 16:27:47 · 1069 阅读 · 0 评论 -
【MapReduce】MR 框架原理 之 Partitioner分区
文章目录Partition分区☠ 默认分区 --- HashPartitioner▪ 案例 --- WordCountMapper阶段Reducer阶段Driver阶段☠ 自定义Partitioner分区▪ 自定义分区基本步骤▪ 案例需求分析代码实现PhoneBean封装类ProvincePartitioner分区类Mapper阶段Reducer阶段Driver阶段★ 分区总结Partition分区在进行数据处理的时候要求将统计结果按照条件输出到不同文件中,这是就会将数据按照不同的条件进行区域..原创 2020-12-31 16:26:14 · 797 阅读 · 0 评论 -
【MapReduce】MR 框架原理 之 工作流程
文章目录流程图Map阶段Reduce阶段流程详解流程图Map阶段Reduce阶段流程详解上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:1)MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件3)多个溢出文件会被合并成大的溢出文件4)在溢出过程及合并的过程中,都要调用Partitioner进行分区和针对key进行排序5..原创 2020-12-29 16:40:01 · 657 阅读 · 0 评论 -
【MapReduce】MR 框架原理 之 InputFormat 数据输入
文章目录一、InputFormat 数据输入1.切片与MapTask并行度决定机制2.Job提交流程● Job提交流程源码详解3. FileInputFormat切片● FileInputFormat切片机制● FileInputFormat切片源码步骤解析● FileInputFormat切片大小的参数配置4. CombineTextInputFormat切片● CombineTextInputFormat切片机制● CombineTextInputFormat案例1. 需求2. 编写代码运..原创 2020-12-28 20:46:34 · 404 阅读 · 0 评论 -
【MapReduce】序列化
文章目录一、序列化、反序列化概念二、为什么要序列化三、为什么不使用java的序列化?四、自定义bean对象实现序列化接口◆ bean对象序列化步骤:1.必须实现 Writable 接口2.定义空参构造函数3.重写序列化方法4.重写反序列化方法5. 保持顺序一致6. 重写toString()方法7. 实现Comparable接口五、序列化案例 ---- 流量值统计◆ 需求分析◆ 数据集已有数据集目标输出样式① 自定义bean对象阶段★ 注意② Mapper阶段③ Reducer阶段④ Driver阶段⑤ ..原创 2020-12-27 18:09:07 · 600 阅读 · 0 评论 -
【MapReduce】 MR初识
文章目录一、定义二、优缺点三、MR核心编程思想 --- 案例WordCount四、MR进程五、MR编程规范六、wordCount案例① 创建工程▲创建Maven项目▲pom.xml文件添加依赖▲配置日志文件② 代码实现③ 本地运行④ 集群运行▲环境配置 ---- 打jar包Maven依赖▲生成jar包▲具体执行▲查看结果一、定义1.MR是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。2.MR的核心功能是将用户编写的业务逻辑代码和自带默认组件合成一个完整的..原创 2020-12-26 20:20:23 · 1520 阅读 · 0 评论