由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 新人求教一个HADOOP的问题
相关主题
data scientist 一面试题目请教求Hadoop项目练手
妹纸物理phd转data science求建议讨论,(Big)Data Engineer到底是个什么职位
请问大家有没有直接用java全程写mapreduce的程序的?请问有没有Pig Hive Hadoop SQL的速成课?
如何学习Hadoop?请问data scientist 相关职务,面试要准备什么?
How to prepare for the DS interview?请教各位大牛
都用了spark了吗?40岁CS零基础,转BI可行吗?
look alike model 有什么学习资料吗?怎么建一个AWS的real time scoring engine?
data scientist对sql要求高吗R 里面random forest score新的data有new level的问题
相关话题的讨论汇总
话题: score话题: 00000话题: model话题: part话题: 03
进入DataSciences版参与讨论
1 (共1页)
m******e
发帖数: 89
1
刚接触到HADOOP。工作中碰到一个问题。
公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/
part-00000 里。
for example:
/model/2015-03-01/score/part-00000
/model/2015-03-02/score/part-00000
/model/2015-03-03/score/part-00000
.....
data in each file : customer_id,score
I need to get daily scores for about 200K accounts for 6 months. any easy
way to do this?
Thanks!
l******n
发帖数: 9344
2
200k * 200 * 8 =320,000kb =320m
这数据量excel都能搞定,做个pivot table啥的很容易

【在 m******e 的大作中提到】
: 刚接触到HADOOP。工作中碰到一个问题。
: 公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/
: part-00000 里。
: for example:
: /model/2015-03-01/score/part-00000
: /model/2015-03-02/score/part-00000
: /model/2015-03-03/score/part-00000
: .....
: data in each file : customer_id,score
: I need to get daily scores for about 200K accounts for 6 months. any easy

m******e
发帖数: 89
3
谢谢! 我的问题是 有简单的方法 join 我的driver file 和 180 个
daily score file 吗?写了一个UNIX SCRIPT 和PIG SCRIPT, 明天到公司试一下。
B*****g
发帖数: 34098
4
不明白,不就是一个mapreduce吗?

【在 m******e 的大作中提到】
: 谢谢! 我的问题是 有简单的方法 join 我的driver file 和 180 个
: daily score file 吗?写了一个UNIX SCRIPT 和PIG SCRIPT, 明天到公司试一下。

l******n
发帖数: 9344
5
我觉得不用,直接一个R/vba搞定

【在 B*****g 的大作中提到】
: 不明白,不就是一个mapreduce吗?
w********m
发帖数: 1137
6
Score后的文件不会太大 get到local
然后local用python建一个hash表扫一下
分分钟搞定

★ 发自iPhone App: ChineseWeb 8.7

【在 m******e 的大作中提到】
: 刚接触到HADOOP。工作中碰到一个问题。
: 公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/
: part-00000 里。
: for example:
: /model/2015-03-01/score/part-00000
: /model/2015-03-02/score/part-00000
: /model/2015-03-03/score/part-00000
: .....
: data in each file : customer_id,score
: I need to get daily scores for about 200K accounts for 6 months. any easy

h*********d
发帖数: 109
7


【在 m******e 的大作中提到】
: 刚接触到HADOOP。工作中碰到一个问题。
: 公司每天都要给几个M的账号打分(behavior score). 分数存在 model/date/score/
: part-00000 里。
: for example:
: /model/2015-03-01/score/part-00000
: /model/2015-03-02/score/part-00000
: /model/2015-03-03/score/part-00000
: .....
: data in each file : customer_id,score
: I need to get daily scores for about 200K accounts for 6 months. any easy

C********e
发帖数: 492
8
你们实际这么做过么?
把数目这么多的小文件hadoop fs -get到local,很耗时间的,问题不在于文件大小,
而是文件个数。

【在 w********m 的大作中提到】
: Score后的文件不会太大 get到local
: 然后local用python建一个hash表扫一下
: 分分钟搞定
:
: ★ 发自iPhone App: ChineseWeb 8.7

T*****u
发帖数: 7103
9
那就把script送到node山去。

【在 C********e 的大作中提到】
: 你们实际这么做过么?
: 把数目这么多的小文件hadoop fs -get到local,很耗时间的,问题不在于文件大小,
: 而是文件个数。

1 (共1页)
进入DataSciences版参与讨论
相关主题
R 里面random forest score新的data有new level的问题How to prepare for the DS interview?
这个训练过程看上去正常吗?都用了spark了吗?
请问有关t-test(包子酬谢!) (转载)look alike model 有什么学习资料吗?
Strata+Hadoop NYC 2014 开会归来,总结+job informationdata scientist对sql要求高吗
data scientist 一面试题目请教求Hadoop项目练手
妹纸物理phd转data science求建议讨论,(Big)Data Engineer到底是个什么职位
请问大家有没有直接用java全程写mapreduce的程序的?请问有没有Pig Hive Hadoop SQL的速成课?
如何学习Hadoop?请问data scientist 相关职务,面试要准备什么?
相关话题的讨论汇总
话题: score话题: 00000话题: model话题: part话题: 03