问个MapReduce面试题 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 问个MapReduce面试题

相关主题
● sf downtown中型startup招人
● hadoop面试和学习总结
● 问个google面试题
● 问个大数据处理的面试题
● ~~~~~~~~问个G家的题~~~~~~~~~~~
● 问个google面试题(2)
● 问个google面试题
● 发几个面经(8) Roket Fuel 电面 + onsite
● 攒人品，有三个mid-office quant positions (2 equities, 1 credit)
● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？

相关话题的讨论汇总
话题: mapreduce话题: key话题: reduce话题: map

进入JobHunting版参与讨论

1

(共1页)

l*****n 发帖数: 246	1 已经被两个面试官考到这个知识点了。。。无奈new grads，不懂啊。。。就是data set很skew，一个map task产生的key很多，造成一个reduce task handle不了，怎么办？ partition function怎么写合适？还有个面试官说，要我写个combiner。。。不会写啊，肿么办。。。被一个奇葩公司店面，一上来就问我这个new grads两道system design题。。我想吐血啊。。。
i*******6 发帖数: 107	2 明显题目不全，没办法回答。你那几个问号是一个题目还是好几个？你能完整的重复一下原来的题目吗？
f******y 发帖数: 54	3 “data set很skew”，这个现象准确描述是，“相同key的record太多”，如果是这样的话，这个不关partition问题，因为本质上“相同key的“的数据肯定要在一个reduce里面的，不管你partition怎么写。那么怎么解决？ 1,combiner确实是个方法，比如以word count为例子，《hello, 1》,《hello, 1》,《hello, 1》可以合并一条《hello, 3》 2,combiner方法不是什么地方都可以使用，有些不能合并的，就不能使用combiner，那怎么办？其实没什么好办法，可能你最开始设计上就有问题而导致skew，也许可以通过多轮 mapreduce解决，这个扯远了。 lz以前没搞过，要你设计确实有点为难。继续努力，加油！
k********0 发帖数: 6	4 Use two map-reduce jobs, the first job does a partial aggregation, then use a second reduce job to do a final aggregation. This is a typical problem. Also, you can check the Hive system design, which deals with this problem by using two map-reduce jobs.
b**********5 发帖数: 7881	5 how does one do partial aggregation？let's say the map functions creates like 1 gazillion key "k", so the data skews heavily on key "k", and one reducer gets 1 gazillion elements, and can't handle it. how do u do partial aggregation on those 1 gazillion key "k"? aggregate half of them first? how do u aggregate half of them? where does the other half go? 我稍微google了一下mapreduce data skew，一些paper好像都是要custom partition ，先估计一下map出来的key的distribution。。。 use by 【在 k********0 的大作中提到】 : Use two map-reduce jobs, the first job does a partial aggregation, then use : a second reduce job to do a final aggregation. This is a typical problem. : Also, you can check the Hive system design, which deals with this problem by : using two map-reduce jobs.

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？
● Career Path to G, F, A
● 该选哪个方向
● 如何用hadoop 析取各种数据？
● 现在去做hadoop的公司工作还有前途吗？
● 提供内推data science engineer (转载)
● 选错组了?
● 求Google 的 Data Science 有关的位置内推
● scientist 是不是比analyst pay的高一些啊？
● 请教一个大数据的问题

相关话题的讨论汇总
话题: mapreduce话题: key话题: reduce话题: map