H***e 发帖数: 476 | 1 1。很多hadoop相关的问题,mapred整个流程,碰到过的出现的问题,设计有什么flaws
, hadoop和relational db的比较; speculative execution, 我知道这个机制,但是没
有跟名字对上号..就说没听说过。
2。mapreduce怎么实现select count group by; 如何一次mapred实现两个group by
(stduentId, courseId)
select count * from table group by studentId;
select count * from table group by courseId;
3。两个element加起来target的经典题
4。实现一个Boundedqueue,threadsafe,并且最佳化性能。
都答出来了,但是hadoop那些模糊问题的就答得不好。 | d********w 发帖数: 363 | 2 赞,关于第二题在hadoop中有个叫secondary sort,
在parittion时候可以使得键值组成的key,同样的键在同一个分区中。这样行么
map:
emit(pair, value>
partition:
super.partition(key.get(1))
flaws
【在 H***e 的大作中提到】 : 1。很多hadoop相关的问题,mapred整个流程,碰到过的出现的问题,设计有什么flaws : , hadoop和relational db的比较; speculative execution, 我知道这个机制,但是没 : 有跟名字对上号..就说没听说过。 : 2。mapreduce怎么实现select count group by; 如何一次mapred实现两个group by : (stduentId, courseId) : select count * from table group by studentId; : select count * from table group by courseId; : 3。两个element加起来target的经典题 : 4。实现一个Boundedqueue,threadsafe,并且最佳化性能。 : 都答出来了,但是hadoop那些模糊问题的就答得不好。
| H***e 发帖数: 476 | 3 我就说了最简单的,每次map emit两次, 一次key studentID value courseId
一次key course, value student, 最后都柔和在一个文件里了,再做些post
processing。 他说good,也没说有问题.
【在 d********w 的大作中提到】 : 赞,关于第二题在hadoop中有个叫secondary sort, : 在parittion时候可以使得键值组成的key,同样的键在同一个分区中。这样行么 : map: : emit(pair, value> : partition: : super.partition(key.get(1)) : : flaws
| w**z 发帖数: 8232 | 4 面的啥职位啊?
flaws
【在 H***e 的大作中提到】 : 1。很多hadoop相关的问题,mapred整个流程,碰到过的出现的问题,设计有什么flaws : , hadoop和relational db的比较; speculative execution, 我知道这个机制,但是没 : 有跟名字对上号..就说没听说过。 : 2。mapreduce怎么实现select count group by; 如何一次mapred实现两个group by : (stduentId, courseId) : select count * from table group by studentId; : select count * from table group by courseId; : 3。两个element加起来target的经典题 : 4。实现一个Boundedqueue,threadsafe,并且最佳化性能。 : 都答出来了,但是hadoop那些模糊问题的就答得不好。
|
|