由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - aws EMR能设置一个mapper吗?
相关主题
能不能在hadoop中用open mpi?转行做data warehouse的问个学习大数据的问题
spark is slower than java Mapreduce --scala big bulls pls adviseFlink Sparks Next Wave of Distributed Data Processing
是否值得把业务逻辑做到Hbase coprocessor里面?MapReduce 的思想是怎么发明的?
问个Hadoop Word Count的简单问题Re: 请教板上老司机 关于组和以后的发展方向
菜鸟请教个hadoop streaming job 的问题 (转载)春运网站架构之争 MapReduce vs MPI
Mrjob很赞已经全上内存了,还要40多秒啊
coltzhao的公司还在用mongo吗?学习C++是浪费你的生命
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?继续纠结spark
相关话题的讨论汇总
话题: mapper话题: 设置话题: emr话题: aws话题: input
进入Programming版参与讨论
1 (共1页)
o******1
发帖数: 1046
1
想做一个performance的测试,就是同一个mapreduce,用不同数目的mapper,比如1, 2
, 4, 8, 16,...,运算时间如何变化的。
查了一下task configuration:
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGui
mapper数量最少是2个,如何设置成1个呢?
还有,有没有办法把reducer数设成跟mapper一样多?
谢谢!
s****r
发帖数: 125
2
mapper 一般是一个input file 一个mapper,但是如果超出一个limit就会split input
,你可以把你的input file merge成一个,同时设置 mapreduce.input.
fileinputformat.split.minsize 到一个比较大得值去保证不会split
reduer好像你提交hadoop job的时候可以直接设置。具体的参数请google吧。我不是很
清楚。
o******1
发帖数: 1046
3
多谢回复!
是不是我原先把mapper数理解错了?这里mapper数是不同mapper function的个数,不
是执行map method的计算单元的个数。其实我就一个hdfs file,但是可以很大,会存
在不同的datanode上。
我想问的是如何设置processor数目(类似mpi里调用MPI_Comm_size函数得到的process
count),或者core的个数因为现在的processor都是多核的,或者也许是node数如果
hadoop不能设置到处理器的话。总之是想设置最小的可设置的计算单元,看看程序的
scalability with # of processes(or cores or nodes),1个计算单元需要多少时间
,2个4个8个16个...各自需要多少计算时间。这个改怎么设置呢?
谢谢!

input

【在 s****r 的大作中提到】
: mapper 一般是一个input file 一个mapper,但是如果超出一个limit就会split input
: ,你可以把你的input file merge成一个,同时设置 mapreduce.input.
: fileinputformat.split.minsize 到一个比较大得值去保证不会split
: reduer好像你提交hadoop job的时候可以直接设置。具体的参数请google吧。我不是很
: 清楚。

1 (共1页)
进入Programming版参与讨论
相关主题
继续纠结spark菜鸟请教个hadoop streaming job 的问题 (转载)
How to run Message Passing Interface C file?Mrjob很赞
哪位帮忙看一个极为简单的 MPI 程序,感谢拉!coltzhao的公司还在用mongo吗?
A tough pointer conceptHadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
能不能在hadoop中用open mpi?转行做data warehouse的问个学习大数据的问题
spark is slower than java Mapreduce --scala big bulls pls adviseFlink Sparks Next Wave of Distributed Data Processing
是否值得把业务逻辑做到Hbase coprocessor里面?MapReduce 的思想是怎么发明的?
问个Hadoop Word Count的简单问题Re: 请教板上老司机 关于组和以后的发展方向
相关话题的讨论汇总
话题: mapper话题: 设置话题: emr话题: aws话题: input