yarn概念

最新推荐文章于 2025-06-26 22:43:19 发布

咖啡F

最新推荐文章于 2025-06-26 22:43:19 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop 笔记文章标签： yarn 前端 javascript

本文链接：https://blog.csdn.net/weixin_43697701/article/details/122153928

hadoop 同时被 2 个专栏收录

37 篇文章

订阅专栏

笔记

34 篇文章

订阅专栏

yarn

1、概念

yarn是一个资源调度平台，负责为运算程序提供服务器计算资源，相当于一个分布式操作系统，MR就是运行在其上的

2、组件

1）RM

1>处理来自客户端的请求
2>监控NM
3>启动或监控AM
4>资源分配与调度

2）NM

1>管理单节点上的资源
2>处理来自RM的命令
3>处理来自AM的启停命令

4>容器的生命周期管理

5>向RM汇报作业资源、每个容器的运行状态

3）AM

1>与RM协商获取资源

2>把资源再分配给具体任务

3>去NM上启动、运行、监控任务

4>定期向RM发送心跳，汇报任务运行情况

5>任务结束，注销容器

4）Container

是yarn中资源抽象，它封装了某个节点上的多维度资源，内存、cpu等

3、运行机制

1、client向RM提交MR作业
2、RM收到请求后添加到调度器中，分配一个container给任务
3、NM接收到任务后创建container,启动AM，
4、AM下载client提交的资源到本地，向RM申请Maptask资源，RM分配相应的资源给AM
5、AM对申请的资源进行再分配，联系对应的NM，启动container运行maptask程序
6、Maptask程序运行完成后，AM再向RM申请运行ReduceTask资源
7、reducetask向maptask获取相应分区的数据运行
8、程序运行完后，AM向RM注销

4、调度器

yarn.resourcemanager.scheduler.class

1、FiFO 先进先出调度器

1）概念

单队列，根据提交的作业先后顺序

2）优点

简单易懂

3）缺点

不支持多队列，所以一般不单独用

2、Capacity Scheduler容量调度器

1）概念

apache hadoop 3.1.3默认调度器
1、多队列：每个队列可配置一定的资源量，每个队列采用FIFO调度策略。
2、容量保证：管理员可为每个队列设置资源最低保证和资源使用上限
3、灵活性：如果一个队列中的资源有剩余，可以暂时共享给那些需要资源的队列，
	而一旦该队列有新的应用程序提交，则其他队列借调的资源会归还给该队列。
4、多租户：支持多用户共享集群和多应用程序同时运行。
	为了防止同一个用户的作业独占队列中的资源，
	该调度器会对同一用户提交的作业所占资源量进行限定。

2）分配算法

1、队列资源分配，从root开始，使用深度优先算法，优先选择资源占用率最低的队列分配资源。
2、作业资源分配，默认按照提交作业的优先级和提交时间，顺序分配资源。
3、容器资源分配，按照容器的优先级分配资源；
如果优先级相同，按照数据本地性原则： 
	1）任务和数据在同一节点
	2）任务和数据在同一机架
	3）任务和数据不在同一节点也不在同一机架

3、Fair Scheduler 公平调度器

1）概念

CDH默认
1、多队列：支持多队列多作业
2、容量保证：管理员可为每个队列设置资源最低保证和资源使用上线
3、灵活性：如果一个队列中的资源有剩余，可以暂时共享给那些需要资源的队列，
	而一旦该队列有新的应用程序提交，	
	则其他队列借调的资源会归还给该队列。
4、多租户：支持多用户共享集群和多应用程序同时运行；
	为了防止同一个用户的作业独占队列中的资源，
	该调度器会对同一用户提交的作业所占资源量进行限定。

2）分配策略

1、队列资源分配，优先选择对资源的缺额比例大的，在时间尺度上，
	所有作业获得公平的资源。某一时刻一个作业应获资源和实际获取资源的差距叫“缺额”
	调度器会优先为缺额大的作业分配资源
2、每个队列可以单独设置资源分配方式：FIFO、FAIR、DRF

5、常用命令

1）查看状态

 yarn node -list -all	列出所有节点
 yarn queue -status <QueueName>	查看队列状态
 yarn application -list	列出所有 Application
 yarn application -list -appStates  查看状态
 	ALL、NEW、NEW_SAVING、SUBMITTED、
 	ACCEPTED、RUNNING、FINISHED、FAILED、KILLED
 yarn application -kill application_***** 	Kill 掉 Application
 yarn container -list	 AppID 查看app对应的container
 yarn container -status  ContainerId
 yarn applicationattempt -list <ApplicationId> 	列出所有 Application 尝试的列表
 yarn applicationattempt -status <ApplicationAttemptId>	打印 ApplicationAttemp 状态

2）查看日志

yarn logs -applicationId application_***** 		查看某个app的日志
yarn logs -applicationId application_*****  -containerId container_**   查看container日志

3)更新配置

yarn rmadmin -refreshQueues	加载队列配置

6、参数

1）ResourceManager相关

yarn.resourcemanager.scheduler.class 配置调度器，默认容量
yarn.resourcemanager.scheduler.client.thread-count ResourceManager处理调度器请求的线程数量，默认50

2）NodeManager相关

yarn.nodemanager.resource.detect-hardware-capabilities 是否让yarn自己检测硬件进行配置，默认false
yarn.nodemanager.resource.count-logical-processors-as-cores 是否将虚拟核数当作CPU核数，默认false
yarn.nodemanager.resource.pcores-vcores-multiplier 虚拟核数和物理核数乘数，例如：4核8线程，该参数就应设为2，默认1.0
yarn.nodemanager.pmem-check-enabled 是否开启物理内存检查限制container，默认打开
yarn.nodemanager.vmem-check-enabled 是否开启虚拟内存检查限制container，默认打开
yarn.nodemanager.vmem-pmem-ratio 虚拟内存物理内存比例，默认2.1

3）Container相关

yarn.scheduler.minimum-allocation-mb 容器最最小内存，默认1G
yarn.scheduler.maximum-allocation-mb 容器最最大内存，默认8G
yarn.scheduler.minimum-allocation-vcores 容器最小CPU核数，默认1个
yarn.scheduler.maximum-allocation-vcores 容器最大CPU核数，默认4个