t******e 发帖数: 98 | 1 How to add a counter to www.google.com to track the billionth user.
没想出什么好办法,希望大家不吝赐教。 |
z**********g 发帖数: 209 | |
l*********8 发帖数: 4642 | 3 到底要track什么啊? 第10亿个用户? 怎么定义呢?
【在 t******e 的大作中提到】 : How to add a counter to www.google.com to track the billionth user. : 没想出什么好办法,希望大家不吝赐教。
|
l*****a 发帖数: 14598 | 4 确实题意说的太不清楚了
但是猜测一下吧。。
估计是用IP address/MAC Address等unique信息作为key,算出hash code,
然后因为用户众多,assume 一台server放不下
通过那个hash code Map reduce到不同的server
然后在不同server的hashmap中查看是否新user...
然后。。。
【在 l*********8 的大作中提到】 : 到底要track什么啊? 第10亿个用户? 怎么定义呢?
|
l*********8 发帖数: 4642 | 5 你的意思是: 找出今天(或者某个时间段)内在google.com查询的第10亿个用户?
【在 l*****a 的大作中提到】 : 确实题意说的太不清楚了 : 但是猜测一下吧。。 : 估计是用IP address/MAC Address等unique信息作为key,算出hash code, : 然后因为用户众多,assume 一台server放不下 : 通过那个hash code Map reduce到不同的server : 然后在不同server的hashmap中查看是否新user... : 然后。。。
|
l*****a 发帖数: 14598 | 6 要track ,起码得先识别出来吧。
等LZ的题意说明
【在 l*********8 的大作中提到】 : 你的意思是: 找出今天(或者某个时间段)内在google.com查询的第10亿个用户?
|
t******e 发帖数: 98 | 7 应该是从某个时间开始的第10亿个点击google网站用户,我觉得这题的难点是counter
的设计,如果用一台server来计数显然设计不scalable,使用分布式计数则计数器同步
不好处理。如果用类似windows azure中的message queue来缓存用户请求,然后找到第
10亿个用户则存储压力太大。没想出什么好办法,除非题目容许有统计误差。 |