b*******y 发帖数: 1240 | 1 large log file,含有 customer id, product id, time stamp
想得到在某一天中某个custom看网页的次数
1. 足够memory
2. limited memory |
l*****a 发帖数: 559 | 2 内存有限就external sort。
time stamp , customer id, product id 排序。 |
b*******y 发帖数: 1240 | 3 排序?
有三个column
分别是time, custom和product
【在 l*****a 的大作中提到】 : 内存有限就external sort。 : time stamp , customer id, product id 排序。
|
y***m 发帖数: 7027 | 4 最土的办法不是分片读取累加么...
【在 b*******y 的大作中提到】 : large log file,含有 customer id, product id, time stamp : 想得到在某一天中某个custom看网页的次数 : 1. 足够memory : 2. limited memory
|
b*******y 发帖数: 1240 | 5 那个time stap是epic time
你怎么读取啊
【在 y***m 的大作中提到】 : 最土的办法不是分片读取累加么...
|
b*******y 发帖数: 1240 | 6 up一下
【在 b*******y 的大作中提到】 : large log file,含有 customer id, product id, time stamp : 想得到在某一天中某个custom看网页的次数 : 1. 足够memory : 2. limited memory
|
f*****w 发帖数: 2602 | 7 为什么要sort ? log文件不一般都是按照时间排序的么? 所以步骤是 1)找到想要的
时间区间 2) 然后go through一遍
Step 2完全不是问题,不管内存是不是够,可以直接在文件上操作;
对于Step1, 如果内存不够的话就分块载入,然后再在内存中找合适的位置 |
b*******y 发帖数: 1240 | 8 那epic time这个条件应该怎么考虑
【在 f*****w 的大作中提到】 : 为什么要sort ? log文件不一般都是按照时间排序的么? 所以步骤是 1)找到想要的 : 时间区间 2) 然后go through一遍 : Step 2完全不是问题,不管内存是不是够,可以直接在文件上操作; : 对于Step1, 如果内存不够的话就分块载入,然后再在内存中找合适的位置
|
h*********n 发帖数: 11319 | 9 啥叫epic time
【在 b*******y 的大作中提到】 : 那epic time这个条件应该怎么考虑
|
b*******y 发帖数: 1240 | 10 应该是epoch time
【在 h*********n 的大作中提到】 : 啥叫epic time
|
f********3 发帖数: 210 | |
e***s 发帖数: 799 | |
e***s 发帖数: 799 | 13 是这个http://en.wikipedia.org/wiki/Unix_time
【在 f********3 的大作中提到】 : epoch time是啥?
|