
hadoop
hadoop
orange大数据技术探索者
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hdfs读写原理
目录3个概念写数据是输出流读数据输入流如何保证数据完整性3个概念block这个块就是block,它是最大的一个单位。一般为128MB,当然你可以去改,不顾不推荐。因为块太小:寻址时间占比过高。块太大:Map任务数太少,作业执行速度变慢。packetpacket是第二大的单位,它是client端向DataNode,或DataNode的PipLine之间传数据的基本单位,默认64KB。chunkchunk是最小的单位,它是client向DataNode,或DataNode的PipLine之间进行原创 2020-06-11 11:19:19 · 777 阅读 · 0 评论 -
mr源码解析
在我们提交完MR程序之后,MR程序会先后经历map,reduce阶段,下面我们详细的来解析一下各个阶段1、map阶段,在这个阶段主要分如下的几个步骤read,map,collect,溢写,combine阶段(1)、在read阶段,maptask会调用用户自定义的RecordReader方法,在splitInput中解析出一个个的key-value对(2)、在map阶段,maptask会接受由...原创 2019-03-08 20:10:49 · 714 阅读 · 0 评论 -
yarn源码解析
目录yarn流程AM(appmaster)的工作机制调度器mr on yarnyarn流程Client向RM发出请求RM返回一个ApplicationID作为回应Client向RM回应Application Submission Context(ASC)。ASC包括ApplicationID、user、queue,以及其他一些启动AM相关的信息,除此之外,还有一个Container Launch Context(CLC),CLC包含了资源请求数(内存与CPU),job files,安全token,原创 2020-06-24 20:17:36 · 3323 阅读 · 0 评论 -
MR优化
目录map阶段优化充分利用Combiner选择合理的Writable类型增加输入文件的副本数,就是充分利用本地读提前合并map小文件,减少map 数量提高block大小提高map输出的Buffer合理配置map的Merge参数Combine的使用策略合理的开启map压缩Map side tuning总结Shuffle阶段优化Copy数据阶段Merge阶段归并排序SortReducereduce调优主要参数:map阶段优化充分利用CombinerCombiner在Map端提前进行了一次Reduce处理。原创 2020-06-29 10:47:13 · 842 阅读 · 0 评论 -
hdfs之DataNode
目录DataNode工作机制数据完整性掉线时限参数设置新加节点下掉节点添加白名单黑名单退役Datanode多目录配置DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某原创 2020-06-28 16:38:10 · 673 阅读 · 0 评论 -
hdfs中央缓存Centralized Cache
HDFS中央缓存管理HDFS提供了一个高效的缓存加速机制——Centralized Cache Management,可以将一些经常被读取的文件(例如Hive中的fact表)pin到内存中。这些DataNode的缓存也是由NameNode所管理的(NameNode所管理的cache依然是以block形式,而DataNode也会定期向NameNode汇报缓存状态),而客户端可以高效得读取被缓存的数据块;为了能锁定内存,该实现依赖于JNI使用libhadoop.so,所以POSIX资源限制也要进行相应的设置(原创 2020-06-28 16:20:50 · 309 阅读 · 0 评论 -
hdfs之NameNode和SecondaryNameNode
目录NN和2NN工作机制详解:Fsimage和Edits解析CheckPointNameNode故障处理集群安全模式NN和2NN工作机制详解:Fsimage:NameNode内存中元数据序列化后形成的文件。Edits:记录客户端更新元数据信息的每一步操作(可通过Edits运算出元数据)。NameNode启动时,先滚动Edits并生成一个空的edits.inprogress,然后加载Edits和Fsimage到内存中,此时NameNode内存就持有最新的元数据信息。Client开始对NameNode发原创 2020-06-28 16:19:38 · 297 阅读 · 0 评论 -
NameNode的HA策略
这里写目录标题HDFS中央缓存管理HA1.x2.xhadoop2.x Federation原理结构优势HDFS中央缓存管理HDFS提供了一个高效的缓存加速机制——Centralized Cache Management,可以将一些经常被读取的文件(例如Hive中的fact表)pin到内存中。这些DataNode的缓存也是由NameNode所管理的(NameNode所管理的cache依然是以block形式,而DataNode也会定期向NameNode汇报缓存状态),而客户端可以高效得读取被缓存的数据块;为原创 2020-06-24 20:40:56 · 548 阅读 · 0 评论 -
hadoop中的角色
Hdfs是分布式文件存储系统,是用来存储文件的NameNode:管理元数据信息,给子节点分配任务(FSImage是主节点启动时对整个文件系统的快照(元数据镜像文件),Edits是修改记录(操作日志文件))DataNode:负责数据存储,实时上报心跳给主节点SecondaryNameNode:1)首先,它定时到NameNode去获取edit logs,并更新到fsimage上。一旦它有了新的fsimage文件,它将其拷贝回 NameNode中。2) NameNode在下次重启时会使用这个新的fs原创 2020-06-14 16:52:21 · 584 阅读 · 0 评论 -
hdfs java api
目录maven依赖获取FileSystem连接创建新文件删除文件读取文件列出文件名upload向文件追加字符串把本地文件的内容追加到hdfs的文件里其他maven依赖 <hadoop.version>2.7.7</hadoop.version> <hadoop.version>3.1.1</hadoop.version> <dependency> <groupId>o原创 2020-05-28 12:23:44 · 469 阅读 · 0 评论 -
hadoop02--RPC
package rpc;/** * 协议 * */public interface Hello { public static final long versionID = 1; String say(String params);}package rpc;import java.io.IOException;import org.apache.hadoop...原创 2019-03-08 20:01:10 · 141 阅读 · 0 评论 -
windows下配置hadoop
注意是配置,不是安装1 解压hadoop安装包将你的在linux上安装的hadoop-3.2.1.tar.gz这个压缩包在windows下解压2 下载windows的binhttps://github.com/srccodes/hadoop-common-2.2.0-bin3 copy文件hadoop-common-2.2.0-bin-master\bin下的所有文件copy到hadoop-3.2.1的bin下4 配置环境变量注意要要配置好JAVA在Path变量中加5 验证打开c原创 2020-06-21 18:01:27 · 172 阅读 · 0 评论 -
hadoop3.x单机版安装
需要软件centos7(其他的也可以)jdk1.8安装关闭防火墙systemctl stop firewalld.servicesystemctl disable firewalld.service配置ip映射vim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain loc原创 2020-06-07 13:26:29 · 1055 阅读 · 0 评论 -
hadoop
HDFS的特点优点:高可靠性高扩展性:高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。缺点:不适合低延迟数据访问。无法高效存储大量小文件。不支持多用户写入及任意修改文件。hdfs的组成*NameNode 是主节点,存储文件的元数据,负责管理文件系...原创 2019-03-08 19:59:43 · 237 阅读 · 0 评论