aws EMR能设置一个mapper吗？ - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - aws EMR能设置一个mapper吗？

相关主题
● 能不能在hadoop中用open mpi?	● 转行做data warehouse的问个学习大数据的问题
● spark is slower than java Mapreduce --scala big bulls pls advise	● Flink Sparks Next Wave of Distributed Data Processing
● 是否值得把业务逻辑做到Hbase coprocessor里面?	● MapReduce 的思想是怎么发明的？
● 问个Hadoop Word Count的简单问题	● Re: 请教板上老司机关于组和以后的发展方向
● 菜鸟请教个hadoop streaming job 的问题 (转载)	● 春运网站架构之争 MapReduce vs MPI
● Mrjob很赞	● 已经全上内存了，还要40多秒啊
● coltzhao的公司还在用mongo吗？	● 学习C++是浪费你的生命
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● 继续纠结spark

相关话题的讨论汇总
话题: mapper话题: 设置话题: emr话题: aws话题: input

进入Programming版参与讨论

1

(共1页)

o******1 发帖数: 1046	1 想做一个performance的测试，就是同一个mapreduce，用不同数目的mapper，比如1, 2 , 4, 8, 16,...，运算时间如何变化的。查了一下task configuration: http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGui mapper数量最少是2个，如何设置成1个呢？还有，有没有办法把reducer数设成跟mapper一样多？谢谢！
s****r 发帖数: 125	2 mapper 一般是一个input file 一个mapper，但是如果超出一个limit就会split input ，你可以把你的input file merge成一个，同时设置 mapreduce.input. fileinputformat.split.minsize 到一个比较大得值去保证不会split reduer好像你提交hadoop job的时候可以直接设置。具体的参数请google吧。我不是很清楚。
o******1 发帖数: 1046	3 多谢回复！是不是我原先把mapper数理解错了？这里mapper数是不同mapper function的个数，不是执行map method的计算单元的个数。其实我就一个hdfs file，但是可以很大，会存在不同的datanode上。我想问的是如何设置processor数目（类似mpi里调用MPI_Comm_size函数得到的process count），或者core的个数因为现在的processor都是多核的，或者也许是node数如果 hadoop不能设置到处理器的话。总之是想设置最小的可设置的计算单元，看看程序的 scalability with # of processes(or cores or nodes)，1个计算单元需要多少时间，2个4个8个16个...各自需要多少计算时间。这个改怎么设置呢？谢谢！ input 【在 s****r 的大作中提到】 : mapper 一般是一个input file 一个mapper，但是如果超出一个limit就会split input : ，你可以把你的input file merge成一个，同时设置 mapreduce.input. : fileinputformat.split.minsize 到一个比较大得值去保证不会split : reduer好像你提交hadoop job的时候可以直接设置。具体的参数请google吧。我不是很 : 清楚。

1

(共1页)

进入Programming版参与讨论

相关主题
● 继续纠结spark	● 菜鸟请教个hadoop streaming job 的问题 (转载)
● How to run Message Passing Interface C file?	● Mrjob很赞
● 哪位帮忙看一个极为简单的　MPI　程序，感谢拉！	● coltzhao的公司还在用mongo吗？
● A tough pointer concept	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 能不能在hadoop中用open mpi?	● 转行做data warehouse的问个学习大数据的问题
● spark is slower than java Mapreduce --scala big bulls pls advise	● Flink Sparks Next Wave of Distributed Data Processing
● 是否值得把业务逻辑做到Hbase coprocessor里面?	● MapReduce 的思想是怎么发明的？
● 问个Hadoop Word Count的简单问题	● Re: 请教板上老司机关于组和以后的发展方向

相关话题的讨论汇总
话题: mapper话题: 设置话题: emr话题: aws话题: input

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)