boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 诚心请教Spark EMR配置
相关主题
有没有谁自己买服务器组建几个clusters跑hadoop大数据的?
Hadoop Spark 学习小结[2014版] (转载)
Hadoop Spark 学习小结[2014版] (转载)
如何提高Spark在Yarn上的内存使用率
通过日志分析yarn app实际内存用量
big data software engineer或者data scientist 工作机会推荐 (转载)
讨论,(Big)Data Engineer到底是个什么职位
only average statistics
都用了spark了吗?
识别物体的算法
相关话题的讨论汇总
话题: spark话题: memory话题: master话题: emr话题: core
进入DataSciences版参与讨论
1 (共1页)
w**2
发帖数: 147
1
最近在版上发了几个问题,谢谢大家的解答。LZ目前的水平也只能跑跑spark python的
程序,对于build spark cluster方面还是有很多不理解的地方。
比如我现在在建一个Spark EMR集群,1个master,2个core,没有task。master和core
都是15g那种, 总共是45g。我就在aws emr的那个网页上create cluster,然后ssh进入
master node。然后问题来了。
首先,memory shortage。我之前以为spark-submit的code都是要跑在core nodes上的
。可是我现在感觉是跑在master上面,根本没有用到core,所以memory才不够用呢?
master和core是如何交互的呢?
需要在spark-submit clause里面增加其他参数嘛?我之前用了增加了driver memory,
感觉可以跑一些数据量大一点的程序。executor memory和driver memory是什么关系呢
?他们都是core的参数嘛,还是master的参数,或者他们只要加起来比27g (45g*0.6)
小就行了?
其次,我试着configure “maximizeResourceAllocation”,create一个json file,
把它放在s3上。但是create cluster的时候出现error msg,"Classification 'null'
is not valid." 也请大家帮忙解答一下。有其他的办法实现这个maximize resource
allocation吗?
json 如下,
[
{
"Classification": "spark",
"Properties": {
"maximizeResourceAllocation": "true"
}
}
]
请大家多多帮忙,不胜感激,以后有钱了发包子。
m*********r
发帖数: 119
2
executor memory 是slave 的
和driver memory是master的memory
w**2
发帖数: 147
3
Thanks ~

【在 m*********r 的大作中提到】
: executor memory 是slave 的
: 和driver memory是master的memory

w**2
发帖数: 147
4
This post is by far the closest to what I want,
http://www.chinabtp.com/spark-not-able-to-run-in-yarn-cluster-m
I am not sue what configuration file/folder it refers to in the slave node.
There are conf for yarn and conf for spark (which has "spark-defaults.conf")
1 (共1页)
进入DataSciences版参与讨论
相关主题
识别物体的算法
有关clustering
问个问题:一堆(1M)二维座标系的点,每个点有weight,怎么做clustering?
Science杂志一篇关于clustering的新文章 (转载)
我有大概80000~100000个左右的时间序列,希望对他们进行分类。
做个调查了解一下,有公司用HP Vertica 和 Hana 这些 data base的么?
大数据日报 2015年2月楼
[内推] NetBrain tech (software engineer等)职位内部推荐机会
Impala v Hive
DS需要会的手艺 真不少
相关话题的讨论汇总
话题: spark话题: memory话题: master话题: emr话题: core