m******e 发帖数: 89 | 1 刚接触到HADOOP。工作中碰到一个问题。
公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/
part-00000 里。
for example:
/model/2015-03-01/score/part-00000
/model/2015-03-02/score/part-00000
/model/2015-03-03/score/part-00000
.....
data in each file : customer_id,score
I need to get daily scores for about 200K accounts for 6 months. any easy
way to do this?
Thanks! |
l******n 发帖数: 9344 | 2 200k * 200 * 8 =320,000kb =320m
这数据量excel都能搞定,做个pivot table啥的很容易
【在 m******e 的大作中提到】 : 刚接触到HADOOP。工作中碰到一个问题。 : 公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/ : part-00000 里。 : for example: : /model/2015-03-01/score/part-00000 : /model/2015-03-02/score/part-00000 : /model/2015-03-03/score/part-00000 : ..... : data in each file : customer_id,score : I need to get daily scores for about 200K accounts for 6 months. any easy
|
m******e 发帖数: 89 | 3 谢谢! 我的问题是 有简单的方法 join 我的driver file 和 180 个
daily score file 吗?写了一个UNIX SCRIPT 和PIG SCRIPT, 明天到公司试一下。 |
B*****g 发帖数: 34098 | 4 不明白,不就是一个mapreduce吗?
【在 m******e 的大作中提到】 : 谢谢! 我的问题是 有简单的方法 join 我的driver file 和 180 个 : daily score file 吗?写了一个UNIX SCRIPT 和PIG SCRIPT, 明天到公司试一下。
|
l******n 发帖数: 9344 | 5 我觉得不用,直接一个R/vba搞定
【在 B*****g 的大作中提到】 : 不明白,不就是一个mapreduce吗?
|
w********m 发帖数: 1137 | 6 Score后的文件不会太大 get到local
然后local用python建一个hash表扫一下
分分钟搞定
★ 发自iPhone App: ChineseWeb 8.7
【在 m******e 的大作中提到】 : 刚接触到HADOOP。工作中碰到一个问题。 : 公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/ : part-00000 里。 : for example: : /model/2015-03-01/score/part-00000 : /model/2015-03-02/score/part-00000 : /model/2015-03-03/score/part-00000 : ..... : data in each file : customer_id,score : I need to get daily scores for about 200K accounts for 6 months. any easy
|
h*********d 发帖数: 109 | 7
【在 m******e 的大作中提到】 : 刚接触到HADOOP。工作中碰到一个问题。 : 公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/ : part-00000 里。 : for example: : /model/2015-03-01/score/part-00000 : /model/2015-03-02/score/part-00000 : /model/2015-03-03/score/part-00000 : ..... : data in each file : customer_id,score : I need to get daily scores for about 200K accounts for 6 months. any easy
|
C********e 发帖数: 492 | 8 你们实际这么做过么?
把数目这么多的小文件hadoop fs -get到local,很耗时间的,问题不在于文件大小,
而是文件个数。
【在 w********m 的大作中提到】 : Score后的文件不会太大 get到local : 然后local用python建一个hash表扫一下 : 分分钟搞定 : : ★ 发自iPhone App: ChineseWeb 8.7
|
T*****u 发帖数: 7103 | 9 那就把script送到node山去。
【在 C********e 的大作中提到】 : 你们实际这么做过么? : 把数目这么多的小文件hadoop fs -get到local,很耗时间的,问题不在于文件大小, : 而是文件个数。
|