俺来也最新地址,国产亚洲精品久久777777美腿,免费高清视频在线观看

1 spark on yarn常用屬性介紹

屬性名	默認值	屬性說明
`spark.yarn.am.memory`	512m	在客戶端模式（`client mode`）下，`yarn`應用`master`使用的內存數。在集群模式（`cluster mode`）下，使用`spark.driver.memory`代替。
`spark.driver.cores`	1	在集群模式（`cluster mode`）下，`driver`程序使用的核數。在集群模式（`cluster mode`）下，`driver`程序和`master`運行在同一個`jvm`中，所以`master`控制這個核數。在客戶端模式（`client mode`）下，使用`spark.yarn.am.cores`控制`master`使用的核。
`spark.yarn.am.cores`	1	在客戶端模式（`client mode`）下，`yarn`應用的`master`使用的核數。在集群模式下，使用`spark.driver.cores`代替。
`spark.yarn.am.waitTime`	100ms	在集群模式（cluster mode）下，`yarn`應用`master`等待`SparkContext`初始化的時間。在客戶端模式（`client mode`）下，`master`等待`driver`連接到它的時間。
`spark.yarn.submit.file.replication`	3	文件上傳到`hdfs`上去的`replication`次數
`spark.yarn.preserve.staging.files`	`false`	設置為`true`時，在`job`結束時，保留`staged`文件；否則刪掉這些文件。
`spark.yarn.scheduler.heartbeat.interval-ms`	3000	`Spark`應用`master`與`yarn resourcemanager`之間的心跳間隔
`spark.yarn.scheduler.initial-allocation.interval`	200ms	當存在掛起的容器分配請求時，`spark`應用`master`發送心跳給`resourcemanager`的間隔時間。它的大小不能大于`spark.yarn.scheduler.heartbeat.interval-ms`，如果掛起的請求還存在，那么這個時間加倍，直到到達`spark.yarn.scheduler.heartbeat.interval-ms`大小。
`spark.yarn.max.executor.failures`	`numExecutors * 2`，并且不小于3	在失敗應用程序之前，`executor`失敗的最大次數。
`spark.executor.instances`	2	`Executors`的個數。這個配置和`spark.dynamicAllocation.enabled`不兼容。當同時配置這兩個配置時，動態分配關閉，`spark.executor.instances`被使用
`spark.yarn.executor.memoryOverhead`	`executorMemory * 0.10`，并且不小于`384m`	每個`executor`分配的堆外內存。
`spark.yarn.driver.memoryOverhead`	`driverMemory * 0.10`，并且不小于`384m`	在集群模式下，每個`driver`分配的堆外內存。
`spark.yarn.am.memoryOverhead`	`AM memory * 0.10`，并且不小于`384m`	在客戶端模式下，每個`driver`分配的堆外內存
`spark.yarn.am.port`	隨機	`Yarn` 應用`master`監聽的端口。
`spark.yarn.queue`	`default`	應用提交的`yarn`隊列的名稱
`spark.yarn.jar`	`none`	`Jar`文件存放的地方。默認情況下，`spark jar`安裝在本地，但是`jar`也可以放在`hdfs`上，其他機器也可以共享。

2 客戶端模式和集群模式的區別

這里我們要區分一下什么是客戶端模式（client mode），什么是集群模式（cluster mode）。

我們知道，當在YARN上運行Spark作業時，每個Spark executor作為一個YARN容器(container)運行。Spark可以使得多個Tasks在同一個容器(container)里面運行。 yarn-cluster和yarn-client模式的區別其實就是Application Master進程的區別，在yarn-cluster模式下，driver運行在AM(Application Master)中，它負責向YARN申請資源，并監督作業的運行狀況。當用戶提交了作業之后，就可以關掉Client，作業會繼續在YARN上運行。然而yarn-cluster模式不適合運行交互類型的作業。在yarn-client模式下，Application Master僅僅向YARN請求executor，client會和請求的container通信來調度他們工作，也就是說Client不能離開。下面的圖形象表示了兩者的區別。

1.1

1.2

2.1 Spark on YARN集群模式分析

2.1.1 客戶端操作

1、根據yarnConf來初始化yarnClient，并啟動yarnClient；
2、創建客戶端Application，并獲取Application的ID，進一步判斷集群中的資源是否滿足executor和ApplicationMaster申請的資源，如果不滿足則拋出IllegalArgumentException；
3、設置資源、環境變量：其中包括了設置Application的Staging目錄、準備本地資源（jar文件、log4j.properties）、設置Application其中的環境變量、創建Container啟動的Context等；
4、設置Application提交的Context，包括設置應用的名字、隊列、AM的申請的Container、標記該作業的類型為Spark；
5、申請Memory，并最終通過yarnClient.submitApplication向ResourceManager提交該Application。

當作業提交到YARN上之后，客戶端就沒事了，甚至在終端關掉那個進程也沒事，因為整個作業運行在YARN集群上進行，運行的結果將會保存到HDFS或者日志中。

2.1.2 提交到YARN集群，YARN操作

1、運行ApplicationMaster的run方法；
2、設置好相關的環境變量。
3、創建amClient，并啟動；
4、在Spark UI啟動之前設置Spark UI的AmIpFilter；
5、在startUserClass函數專門啟動了一個線程（名稱為Driver的線程）來啟動用戶提交的Application，也就是啟動了Driver。在Driver中將會初始化SparkContext；
6、等待SparkContext初始化完成，最多等待spark.yarn.applicationMaster.waitTries次數（默認為10），如果等待了的次數超過了配置的，程序將會退出；否則用SparkContext初始化yarnAllocator；
7、當SparkContext、Driver初始化完成的時候，通過amClient向ResourceManager注冊ApplicationMaster;
8、分配并啟動Executeors。在啟動Executeors之前，先要通過yarnAllocator獲取到numExecutors個Container，然后在Container中啟動Executeors。如果在啟動Executeors的過程中失敗的次數達到了maxNumExecutorFailures的次數，maxNumExecutorFailures的計算規則如下：

// Default to numExecutors * 2, with minimum of 3
private val maxNumExecutorFailures = sparkConf.getInt("spark.yarn.max.executor.failures",
    sparkConf.getInt("spark.yarn.max.worker.failures", math.max(args.numExecutors * 2, 3)))

那么這個Application將失敗，將Application Status標明為FAILED，并將關閉SparkContext。其實，啟動Executeors是通過ExecutorRunnable實現的，而ExecutorRunnable內部是啟動CoarseGrainedExecutorBackend的。

9、最后，Task將在CoarseGrainedExecutorBackend里面運行，然后運行狀況會通過Akka通知CoarseGrainedScheduler，直到作業運行完成。

2.2 Spark on YARN客戶端模式分析

和yarn-cluster模式一樣，整個程序也是通過spark-submit腳本提交的。但是yarn-client作業程序的運行不需要通過Client類來封裝啟動，而是直接通過反射機制調用作業的main函數。下面是流程。

1、通過SparkSubmit類的launch的函數直接調用作業的main函數（通過反射機制實現），如果是集群模式就會調用Client的main函數。
2、而應用程序的main函數一定都有個SparkContent，并對其進行初始化；
3、在SparkContent初始化中將會依次做如下的事情：設置相關的配置、注冊MapOutputTracker、BlockManagerMaster、BlockManager，創建taskScheduler和dagScheduler；
4、初始化完taskScheduler后，將創建dagScheduler，然后通過taskScheduler.start()啟動taskScheduler，而在taskScheduler啟動的過程中也會調用SchedulerBackend的start方法。在SchedulerBackend啟動的過程中將會初始化一些參數，封裝在ClientArguments中，并將封裝好的ClientArguments傳進Client類中，并client.runApp()方法獲取Application ID。
5、client.runApp里面的做的和上章客戶端進行操作那節類似，不同的是在里面啟動是ExecutorLauncher（yarn-cluster模式啟動的是ApplicationMaster）。
6、在ExecutorLauncher里面會初始化并啟動amClient，然后向ApplicationMaster注冊該Application。注冊完之后將會等待driver的啟動，當driver啟動完之后，會創建一個MonitorActor對象用于和CoarseGrainedSchedulerBackend進行通信（只有事件AddWebUIFilter他們之間才通信，Task的運行狀況不是通過它和CoarseGrainedSchedulerBackend通信的）。然后就是設置addAmIpFilter，當作業完成的時候，ExecutorLauncher將通過amClient設置Application的狀態為FinalApplicationStatus.SUCCEEDED。
7、分配Executors，這里面的分配邏輯和yarn-cluster里面類似。
8、最后，Task將在CoarseGrainedExecutorBackend里面運行，然后運行狀況會通過Akka通知CoarseGrainedScheduler，直到作業運行完成。
9、在作業運行的時候，YarnClientSchedulerBackend會每隔1秒通過client獲取到作業的運行狀況，并打印出相應的運行信息，當Application的狀態是FINISHED、FAILED和KILLED中的一種，那么程序將退出等待。
10、最后有個線程會再次確認Application的狀態，當Application的狀態是FINISHED、FAILED和KILLED中的一種，程序就運行完成，并停止SparkContext。整個過程就結束了。

3 spark submit 和 spark shell參數介紹

參數名	格式	參數說明
--master	MASTER_URL	如spark://host:port
--deploy-mode	DEPLOY_MODE	Client或者master，默認是client
--class	CLASS_NAME	應用程序的主類
--name	NAME	應用程序的名稱
--jars	JARS	逗號分隔的本地jar包，包含在driver和executor的classpath下
--packages		包含在driver和executor的classpath下的jar包逗號分隔的”groupId:artifactId：version”列表
--exclude-packages		用逗號分隔的”groupId:artifactId”列表
--repositories		逗號分隔的遠程倉庫
--py-files	PY_FILES	逗號分隔的”.zip”,”.egg”或者“.py”文件，這些文件放在python app的PYTHONPATH下面
--files	FILES	逗號分隔的文件，這些文件放在每個executor的工作目錄下面
--conf	PROP=VALUE	固定的spark配置屬性
--properties-file	FILE	加載額外屬性的文件
--driver-memory	MEM	Driver內存，默認1G
--driver-java-options		傳給driver的額外的Java選項
--driver-library-path		傳給driver的額外的庫路徑
--driver-class-path		傳給driver的額外的類路徑
--executor-memory	MEM	每個executor的內存，默認是1G
--proxy-user	NAME	模擬提交應用程序的用戶
--driver-cores	NUM	Driver的核數，默認是1。這個參數僅僅在standalone集群deploy模式下使用
--supervise		Driver失敗時，重啟driver。在mesos或者standalone下使用
--verbose		打印debug信息
--total-executor-cores	NUM	所有executor總共的核數。僅僅在mesos或者standalone下使用
--executor-core	NUM	每個executor的核數。在yarn或者standalone下使用
--driver-cores	NUM	Driver的核數，默認是1。在yarn集群模式下使用
--queue	QUEUE_NAME	隊列名稱。在yarn下使用
--num-executors	NUM	啟動的executor數量。默認為2。在yarn下使用

你可以通過spark-submit --help或者spark-shell --help來查看這些參數。

參考文獻

【1】Spark:Yarn-cluster和Yarn-client區別與聯系

【2】Spark on YARN客戶端模式作業運行全過程分析

【3】Spark on YARN集群模式作業運行全過程分析

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Spark之參數介紹

Spark之參數介紹

1 spark on yarn常用屬性介紹

2 客戶端模式和集群模式的區別

2.1 Spark on YARN集群模式分析

2.1.1 客戶端操作

2.1.2 提交到YARN集群，YARN操作

2.2 Spark on YARN客戶端模式分析

3 spark submit 和 spark shell參數介紹

參考文獻

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Spark之參數介紹

1 spark on yarn常用屬性介紹

2 客戶端模式和集群模式的區別

2.1 Spark on YARN集群模式分析

2.1.1 客戶端操作

2.1.2 提交到YARN集群，YARN操作

2.2 Spark on YARN客戶端模式分析

3 spark submit 和 spark shell參數介紹

參考文獻

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

2.1.2 提交到YARN集群，YARN操作