o******1 发帖数: 1046 | 1 想做一个performance的测试,就是同一个mapreduce,用不同数目的mapper,比如1, 2
, 4, 8, 16,...,运算时间如何变化的。
查了一下task configuration:
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGui
mapper数量最少是2个,如何设置成1个呢?
还有,有没有办法把reducer数设成跟mapper一样多?
谢谢! | s****r 发帖数: 125 | 2 mapper 一般是一个input file 一个mapper,但是如果超出一个limit就会split input
,你可以把你的input file merge成一个,同时设置 mapreduce.input.
fileinputformat.split.minsize 到一个比较大得值去保证不会split
reduer好像你提交hadoop job的时候可以直接设置。具体的参数请google吧。我不是很
清楚。 | o******1 发帖数: 1046 | 3 多谢回复!
是不是我原先把mapper数理解错了?这里mapper数是不同mapper function的个数,不
是执行map method的计算单元的个数。其实我就一个hdfs file,但是可以很大,会存
在不同的datanode上。
我想问的是如何设置processor数目(类似mpi里调用MPI_Comm_size函数得到的process
count),或者core的个数因为现在的processor都是多核的,或者也许是node数如果
hadoop不能设置到处理器的话。总之是想设置最小的可设置的计算单元,看看程序的
scalability with # of processes(or cores or nodes),1个计算单元需要多少时间
,2个4个8个16个...各自需要多少计算时间。这个改怎么设置呢?
谢谢!
input
【在 s****r 的大作中提到】 : mapper 一般是一个input file 一个mapper,但是如果超出一个limit就会split input : ,你可以把你的input file merge成一个,同时设置 mapreduce.input. : fileinputformat.split.minsize 到一个比较大得值去保证不会split : reduer好像你提交hadoop job的时候可以直接设置。具体的参数请google吧。我不是很 : 清楚。
|
|