新人求教一个ＨＡＤＯＯＰ的问题 - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 新人求教一个ＨＡＤＯＯＰ的问题

相关主题
● data scientist 一面试题目请教	● 求Hadoop项目练手
● 妹纸物理phd转data science求建议	● 讨论，（Big）Data Engineer到底是个什么职位
● 请问大家有没有直接用java全程写mapreduce的程序的？	● 请问有没有Pig Hive Hadoop SQL的速成课？
● 如何学习Hadoop?	● 请问data scientist 相关职务，面试要准备什么?
● How to prepare for the DS interview?	● 请教各位大牛
● 都用了spark了吗？	● 40岁CS零基础，转BI可行吗？
● look alike model 有什么学习资料吗？	● 怎么建一个AWS的real time scoring engine？
● data scientist对sql要求高吗	● R 里面random forest score新的data有new level的问题

相关话题的讨论汇总
话题: score话题: 00000话题: model话题: part话题: 03

进入DataSciences版参与讨论

1

(共1页)

m******e 发帖数: 89	1 刚接触到HADOOP。工作中碰到一个问题。公司每天都要给几个M的账号打分（behavior score）. 分数存在 model/date/score/ part-00000 里。 for example: /model/2015-03-01/score/part-00000 /model/2015-03-02/score/part-00000 /model/2015-03-03/score/part-00000 ..... data in each file : customer_id,score I need to get daily scores for about 200K accounts for 6 months. any easy way to do this? Thanks!
l******n 发帖数: 9344	2 200k * 200 * 8 =320,000kb =320m 这数据量excel都能搞定，做个pivot table啥的很容易【在 m******e 的大作中提到】 : 刚接触到HADOOP。工作中碰到一个问题。 : 公司每天都要给几个M的账号打分（behavior score）. 分数存在 model/date/score/ : part-00000 里。 : for example: : /model/2015-03-01/score/part-00000 : /model/2015-03-02/score/part-00000 : /model/2015-03-03/score/part-00000 : ..... : data in each file : customer_id,score : I need to get daily scores for about 200K accounts for 6 months. any easy
m******e 发帖数: 89	3 谢谢！　我的问题是　有简单的方法　join 我的driver file　和　１８０　个 daily　score file 吗？写了一个UNIX SCRIPT 和PIG SCRIPT，明天到公司试一下。
B*****g 发帖数: 34098	4 不明白，不就是一个mapreduce吗？【在 m******e 的大作中提到】 : 谢谢！　我的问题是　有简单的方法　join 我的driver file　和　１８０　个 : daily　score file 吗？写了一个UNIX SCRIPT 和PIG SCRIPT，明天到公司试一下。
l******n 发帖数: 9344	5 我觉得不用，直接一个R/vba搞定【在 B*****g 的大作中提到】 : 不明白，不就是一个mapreduce吗？
w********m 发帖数: 1137	6 Score后的文件不会太大 get到local 然后local用python建一个hash表扫一下分分钟搞定 ★ 发自iPhone App: ChineseWeb 8.7 【在 m******e 的大作中提到】 : 刚接触到HADOOP。工作中碰到一个问题。 : 公司每天都要给几个M的账号打分（behavior score）. 分数存在 model/date/score/ : part-00000 里。 : for example: : /model/2015-03-01/score/part-00000 : /model/2015-03-02/score/part-00000 : /model/2015-03-03/score/part-00000 : ..... : data in each file : customer_id,score : I need to get daily scores for about 200K accounts for 6 months. any easy
h*********d 发帖数: 109	7 【在 m******e 的大作中提到】 : 刚接触到HADOOP。工作中碰到一个问题。 : 公司每天都要给几个M的账号打分（behavior score）. 分数存在 model/date/score/ : part-00000 里。 : for example: : /model/2015-03-01/score/part-00000 : /model/2015-03-02/score/part-00000 : /model/2015-03-03/score/part-00000 : ..... : data in each file : customer_id,score : I need to get daily scores for about 200K accounts for 6 months. any easy
C********e 发帖数: 492	8 你们实际这么做过么？把数目这么多的小文件hadoop fs -get到local，很耗时间的，问题不在于文件大小，而是文件个数。【在 w********m 的大作中提到】 : Score后的文件不会太大 get到local : 然后local用python建一个hash表扫一下 : 分分钟搞定 : : ★ 发自iPhone App: ChineseWeb 8.7
T*****u 发帖数: 7103	9 那就把script送到node山去。【在 C********e 的大作中提到】 : 你们实际这么做过么？ : 把数目这么多的小文件hadoop fs -get到local，很耗时间的，问题不在于文件大小， : 而是文件个数。

1

(共1页)

进入DataSciences版参与讨论

相关主题
● R 里面random forest score新的data有new level的问题	● How to prepare for the DS interview?
● 这个训练过程看上去正常吗？	● 都用了spark了吗？
● 请问有关t-test（包子酬谢！） (转载)	● look alike model 有什么学习资料吗？
● Strata+Hadoop NYC 2014 开会归来，总结＋job information	● data scientist对sql要求高吗
● data scientist 一面试题目请教	● 求Hadoop项目练手
● 妹纸物理phd转data science求建议	● 讨论，（Big）Data Engineer到底是个什么职位
● 请问大家有没有直接用java全程写mapreduce的程序的？	● 请问有没有Pig Hive Hadoop SQL的速成课？
● 如何学习Hadoop?	● 请问data scientist 相关职务，面试要准备什么?

相关话题的讨论汇总
话题: score话题: 00000话题: model话题: part话题: 03

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)