诚心请教Spark EMR配置 - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 诚心请教Spark EMR配置

相关主题
● 有没有谁自己买服务器组建几个clusters跑hadoop大数据的？
● Hadoop Spark 学习小结[2014版] (转载)
● Hadoop Spark 学习小结[2014版] (转载)
● 如何提高Spark在Yarn上的内存使用率
● 通过日志分析yarn app实际内存用量
● big data software engineer或者data scientist 工作机会推荐 (转载)
● 讨论，（Big）Data Engineer到底是个什么职位
● only average statistics
● 都用了spark了吗？
● 识别物体的算法

相关话题的讨论汇总
话题: spark话题: memory话题: master话题: emr话题: core

进入DataSciences版参与讨论

1

(共1页)

w**2 发帖数: 147	1 最近在版上发了几个问题，谢谢大家的解答。LZ目前的水平也只能跑跑spark python的程序，对于build spark cluster方面还是有很多不理解的地方。比如我现在在建一个Spark EMR集群，1个master，2个core，没有task。master和core 都是15g那种, 总共是45g。我就在aws emr的那个网页上create cluster，然后ssh进入 master node。然后问题来了。首先，memory shortage。我之前以为spark－submit的code都是要跑在core nodes上的。可是我现在感觉是跑在master上面，根本没有用到core，所以memory才不够用呢？ master和core是如何交互的呢？需要在spark-submit clause里面增加其他参数嘛？我之前用了增加了driver memory，感觉可以跑一些数据量大一点的程序。executor memory和driver memory是什么关系呢？他们都是core的参数嘛，还是master的参数，或者他们只要加起来比27g (45g*0.6) 小就行了？其次，我试着configure “maximizeResourceAllocation”，create一个json file，把它放在s3上。但是create cluster的时候出现error msg，"Classification 'null' is not valid." 也请大家帮忙解答一下。有其他的办法实现这个maximize resource allocation吗？ json 如下， [ { "Classification": "spark", "Properties": { "maximizeResourceAllocation": "true" } } ] 请大家多多帮忙，不胜感激，以后有钱了发包子。
m*********r 发帖数: 119	2 executor memory 是slave 的和driver memory是master的memory
w**2 发帖数: 147	3 Thanks ~ 【在 m*********r 的大作中提到】 : executor memory 是slave 的 : 和driver memory是master的memory
w**2 发帖数: 147	4 This post is by far the closest to what I want, http://www.chinabtp.com/spark-not-able-to-run-in-yarn-cluster-m I am not sue what configuration file/folder it refers to in the slave node. There are conf for yarn and conf for spark (which has "spark-defaults.conf")

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 识别物体的算法
● 有关clustering
● 问个问题：一堆（1M）二维座标系的点，每个点有weight，怎么做clustering？
● Science杂志一篇关于clustering的新文章 (转载)
● 我有大概80000～100000个左右的时间序列，希望对他们进行分类。
● 做个调查了解一下，有公司用HP Vertica 和 Hana 这些 data base的么？
● 大数据日报 2015年2月楼
● [内推] NetBrain tech (software engineer等)职位内部推荐机会
● Impala v Hive
● DS需要会的手艺真不少

相关话题的讨论汇总
话题: spark话题: memory话题: master话题: emr话题: core