w**2 发帖数: 147 | 1 最近在版上发了几个问题,谢谢大家的解答。LZ目前的水平也只能跑跑spark python的
程序,对于build spark cluster方面还是有很多不理解的地方。
比如我现在在建一个Spark EMR集群,1个master,2个core,没有task。master和core
都是15g那种, 总共是45g。我就在aws emr的那个网页上create cluster,然后ssh进入
master node。然后问题来了。
首先,memory shortage。我之前以为spark-submit的code都是要跑在core nodes上的
。可是我现在感觉是跑在master上面,根本没有用到core,所以memory才不够用呢?
master和core是如何交互的呢?
需要在spark-submit clause里面增加其他参数嘛?我之前用了增加了driver memory,
感觉可以跑一些数据量大一点的程序。executor memory和driver memory是什么关系呢
?他们都是core的参数嘛,还是master的参数,或者他们只要加起来比27g (45g*0.6)
小就行了?
其次,我试着configure “maximizeResourceAllocation”,create一个json file,
把它放在s3上。但是create cluster的时候出现error msg,"Classification 'null'
is not valid." 也请大家帮忙解答一下。有其他的办法实现这个maximize resource
allocation吗?
json 如下,
[
{
"Classification": "spark",
"Properties": {
"maximizeResourceAllocation": "true"
}
}
]
请大家多多帮忙,不胜感激,以后有钱了发包子。 |
m*********r 发帖数: 119 | 2 executor memory 是slave 的
和driver memory是master的memory |
w**2 发帖数: 147 | 3 Thanks ~
【在 m*********r 的大作中提到】 : executor memory 是slave 的 : 和driver memory是master的memory
|
w**2 发帖数: 147 | 4 This post is by far the closest to what I want,
http://www.chinabtp.com/spark-not-able-to-run-in-yarn-cluster-m
I am not sue what configuration file/folder it refers to in the slave node.
There are conf for yarn and conf for spark (which has "spark-defaults.conf") |