Yarn 总结

导读:本篇文章讲解 Yarn 总结,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

1. 基础架构

YARN 主要由 ResourceManagerNodeManagerApplicationMasterContainer 等组件构成;

在这里插入图片描述
(1) ResourceManager(RM):整个集群资源的分配者
1.处理Client请求;(客户端提交Job)
2.监控NodeManager,并周期性进行“心跳机制”;
3.启动appMaster
4.资源的分配与调度:即可以将比较紧张的节点的任务,发给比较闲的节点

(2) NodeManager (NM):单节点的资源分配者
1.管理节点上的资源
2.处理来自ResourceManager的命令
3.处理来自appMaster的命令
一个NodeManager可以有多个contanier

NodeManager会和ResourceManger进行心跳, 这样ResourceManger就知道每个NodeManager的资源状况,
当有container的申请的时候就会找对应的NodeManager去分配container, 其顺序为:
1.data所在的NodeManager优先
2.如果1没有, 那么找同一个机架 (rack)上的NM
3.如果1,2 都没有, 那么就在集群上面随机寻找一个

(3) ApplicationMaster(AM):单个job任务的资源分配者
1.为应用程序分配资源
2.任务监控与容错

ApplicationMaster是单个任务的老大,需要运行任务时,Appmaster会向ResourceMnager申请资源。如果第一个节点的资源不够,可以由ResourceMnager分配其他节点的资源供第一个节点的任务去运行。

监控与容错:ApplicationMaster会监控MapTask和ReduceTask
NodeManager上面会运行AppMaster, 其实ApplicationMaster就是一个特殊的ContainerJob提交后会先创建一个ApplicationMaster的container之后通过这个ApplicationMaster Container去协调整个Job的运行。

(4) Container 容器
Container是Yarn中的资源抽象,主要是CPU、内存 ;
任何任务都是在容器里运行的!

container本身的话其实就是在NodeManager上面的一个资源包,
由 Resource Manager来分配
由ApplicationMaster来启动
在NodeManager上面运行

2. 工作机制

在这里插入图片描述

(一)提交Job

  1. 客户端提交MR程序提交到【客户端所在的】节点上,产生一个YarnRunner ,(如果是本地则产生localRunner)
  2. YarnRunnerResourceManager 申请运行程序;
    ResourceManager 会将程序提交的资源路径和job id返回给客户端;
  3. 客户端将切片信息、XML配置文件,jar包 提交到指定的资源路径;
  4. 客户端提交完资源后,向ResourceManager 申请运行 MRAppMaster(单个job的老大);

(二) 作业初始化

  1. ResourceManager 将客户端的请求初始化成一个Task任务。 将任务放到FIFO任务队列里面;
  2. ResourceManager 找到一个空闲的NodeManager 领取到 Task 任务, 用于运行MRAppMaster
  3. 该 NodeManager 创建容器 Container用于运行MRAppmaster,并产生 MRAppmaster。(任何任务都是在容器里面运行)
  4. Container 从 HDFS 上的集群资源的路径上拷贝资源(split切片信息)到本地,读取切片信息;

(三) 任务分配

  1. MRAppmaster 根据切片信息 向 ResourceManager 申请运行多个MapTask 。 (切片个数对应MapTask个数)
  2. ResourceManager 将运行 MapTask 任务分配给另外两个 NodeManager,另两个 NodeManager 分别领取任务并创建容器Container(这两个containier也可能在一个NodeManager上);

(四)任务运行

  1. MRAppmaster 向两个接收到任务的 NodeManager 发送程序启动MapTask脚本,这两个 NodeManager 分别启动 MapTask,
    直到MapTask工作完后,对数据按照分区持久化到磁盘,等待ReduceTask来拉取。
    (MapTask和ReduceTesk对应的进程都是Yarnchild
  2. MrAppMaster 等待【所有 MapTask 运行完毕后】,又向ResourceManager 申请容器,在容器中运行 ReduceTask,其对应的进程为Yarnchild。(一个NodeManager有多个Container)
  3. ReduceTaskMapTask 拉取【相应分区】的数据。
  4. 程序运行完毕后,MRAppmaster 会向 ResourceManager 申请注销自己。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/89205.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!