首页 首页 大数据 大数据入门 查看内容

Spark on Yarn的运行原理

木马童年 2018-10-13 19:39 17 0

一、YARN是集群的资源管理系统 1、ResourceManager:负责整个集群的资源管理和分配。 2、ApplicationMaster:YARN中每个Application对应一个AM进程,负责与RM协商获取资源,获取资源后告诉NodeManager为其分配并启 ...

一、YARN是集群的资源管理系统

1、ResourceManager:负责整个集群的资源管理和分配。

2、ApplicationMaster:YARN中每个Application对应一个AM进程,负责与RM协商获取资源,获取资源后告诉NodeManager为其分配并启动Container。

3、NodeManager:每个节点的资源和任务管理器,负责启动/停止Container,并监视资源使用情况。

4、Container:YARN中的抽象资源。

二、Spark的概念

1、Driver:和ClusterManager通信,进行资源申请、任务分配并监督其运行状况等。

2、ClusterManager:这里指YARN。

3、DAGScheduler:把spark作业转换成Stage的DAG图。

4、TaskScheduler:把Task分配给具体的Executor。

三、SPARK on YARN

3.1、yarn-cluster模式下

Spark on Yarn的运行原理

(1)ResourceManager接到请求后在集群中选择一个NodeManager分配Container,并在Container中启动ApplicationMaster进程;

(2)在ApplicationMaster进程中初始化sparkContext;

(3)ApplicationMaster向ResourceManager申请到Container后,通知NodeManager在获得的Container中启动excutor进程;

(4)sparkContext分配Task给excutor,excutor发送运行状态给ApplicationMaster。

3.2、yarn-client模式下

Spark on Yarn的运行原理

(1)ResourceManager接到请求后在集群中选择一个NodeManager分配Container,并在Container中启动ApplicationMaster进程;

(2)driver进程运行在client中,并初始化sparkContext;

(3)sparkContext初始化完后与ApplicationMaster通讯,通过ApplicationMaster向ResourceManager申请Container,ApplicationMaster通知NodeManager在获得的Container中启动excutor进程;

(4)sparkContext分配Task给excutor,excutor发送运行状态给driver。

3.3、yarn-cluster与yarn-client的区别:

它们的区别就是ApplicationMaster的区别,yarn-cluster中ApplicationMaster不仅负责申请资源,并负责监控Task的运行状况,因此可以关掉client;

而yarn-client中ApplicationMaster仅负责申请资源,由client中的driver来监控调度Task的运行,因此不能关掉client。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

未分类
0
为您推荐
大数据分析:PC端VS移动端中的搜索引擎

大数据分析:PC端VS移动端中的搜索引擎

还没搞清楚PC的时候,移动互联网来了,还没搞清楚移动互联网的时候,大数据来了。今天…...

数据挖掘领域十大经典算法之—K-Means算法(超详细附代码)

数据挖掘领域十大经典算法之—K-Means算法

简介 又叫K-均值算法,是非监督学习中的聚类算法。 基本思想 k-means算法比较简单…...

2014年全球及中国互联网数据全景

2014年全球及中国互联网数据全景

全球活跃社交用户于 2014 年 8 月突破了 20 亿人;全球独立移动设备用户渗透率于 2014 …...

Hadoop能够风行十年吗

Hadoop能够风行十年吗

Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,…...

大数据技术之争:PIG对Hive

大数据技术之争:PIG对Hive

Pig与Hive已经成为企业实现大规模数据交互的必要工具,其突出优势在于无需编写复杂的M…...

阿里双11大数据  移动电商的名头已坐实

阿里双11大数据 移动电商的名头已坐实

全民网络购物狂欢节已经结束,最终的成交额定在571亿,这与阿里早期的预估值不相上下…...