b**********5 发帖数: 7881 | 1 large log files,
how to design to implement
Timestamp, Key, Amount of event
getSequencce(key, start, end, min/hour/daily)
follow up: what's the challenges | N*D 发帖数: 3641 | | d******e 发帖数: 2265 | | d******e 发帖数: 2265 | 4 map reduce倍。
矿工还别不服气。在这个讲究scalibity的新世界,你们知识严重老化了。
这算基本的东西了。
【在 b**********5 的大作中提到】 : large log files, : how to design to implement : Timestamp, Key, Amount of event : getSequencce(key, start, end, min/hour/daily) : follow up: what's the challenges
| N*D 发帖数: 3641 | 5 不是吧。mapreduce是batch系统,有delay,这个是拉姆打系统,可以试试康婷的。而
且直接产生tsd,正好符合要求啊。
【在 d******e 的大作中提到】 : 这不是一堆语法趟吗
| d******e 发帖数: 2265 | 6 题目说是文件了。你这拉姆大对面试还是太高达上
【在 N*D 的大作中提到】 : 不是吧。mapreduce是batch系统,有delay,这个是拉姆打系统,可以试试康婷的。而 : 且直接产生tsd,正好符合要求啊。
| s******c 发帖数: 1920 | 7 Map reduce
Or dremel
要点在于把log存成columnar的 便于filter
【在 b**********5 的大作中提到】 : large log files, : how to design to implement : Timestamp, Key, Amount of event : getSequencce(key, start, end, min/hour/daily) : follow up: what's the challenges
| s*****r 发帖数: 43070 | | b**********5 发帖数: 7881 | 9 map reduce我也知道啊, 但这个particular问题, 我不大懂
比如你现在有很多log, 这log里是tweetID为key, 然后event就算view过一次吧, 然
后每个event还提供一个timestamp
这个getSequence(key, start, end, day/hour) 是算什么? 是算每个hour,这个
tweet被view过多少次?
你这个functionality怎么算? 这个map reduce, map 是emit(key, (1,
timestamp)) pair, reduce成什么? 你仔细说说。。。
我觉得这里问问题, 很多人就说个general concept, map reduce, 我也知道啊,
但你说说细节看。 interview时, 说细节还是很容易fail的。 头一晕, 就全都混
掉了
【在 d******e 的大作中提到】 : map reduce倍。 : 矿工还别不服气。在这个讲究scalibity的新世界,你们知识严重老化了。 : 这算基本的东西了。
|
|