请教一个大数据的问题 - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 请教一个大数据的问题

相关主题
● 大家如何选择offer呢？	● 如何用hadoop 析取各种数据？
● 招数据科学家 (转载)	● 现在去做hadoop的公司工作还有前途吗？
● 问个L家设计题分布式 inverted index设计	● 提供内推data science engineer (转载)
● hadoop面试和学习总结	● 选错组了?
● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？	● 三星samsung创新部门招大数据工程师
● Career Path to G, F, A	● 求Google 的 Data Science 有关的位置内推
● sf downtown中型startup招人	● scientist 是不是比analyst pay的高一些啊？
● 该选哪个方向	● 问个MapReduce面试题

相关话题的讨论汇总
话题: 文件话题: merge话题: 数据话题: gb话题: cascading

进入JobHunting版参与讨论

(共1页)

j********v
发帖数: 16

在自己机器上有十几个.csv文件，每个文件几十GB，每行是用户在某个时刻的信息，目
标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序，对每个用
户再按时间排序，算下来merge完这个大文件有几百个GB，存在local不现实，想merge
的时候直接把输出存在Amazon S3里
如果不想把数据存在Cassandra这样的数据库里，只想一次性地处理数据，哪些open
source tools可以很好地解决这个问题？Hadoop (MapReduce), Hive, Pig, Cascading
, etc.? 怎样的一种组合最佳？谢谢！

s******c
发帖数: 1920

写个mapreduce就好了啊
id是partition key
timestamp是secondary key

merge
Cascading

【在 j********v 的大作中提到】

: 在自己机器上有十几个.csv文件，每个文件几十GB，每行是用户在某个时刻的信息，目
: 标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序，对每个用
: 户再按时间排序，算下来merge完这个大文件有几百个GB，存在local不现实，想merge
: 的时候直接把输出存在Amazon S3里
: 如果不想把数据存在Cassandra这样的数据库里，只想一次性地处理数据，哪些open
: source tools可以很好地解决这个问题？Hadoop (MapReduce), Hive, Pig, Cascading
: , etc.? 怎样的一种组合最佳？谢谢！

(共1页)

进入JobHunting版参与讨论

相关主题
● 问个MapReduce面试题	● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？
● workday onsite面经，已挂	● Career Path to G, F, A
● 国内科技现在发展太快了，蚂蚁金服旗下芝麻信用分可办理申根签证	● sf downtown中型startup招人
● [原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会 (转载)	● 该选哪个方向
● 大家如何选择offer呢？	● 如何用hadoop 析取各种数据？
● 招数据科学家 (转载)	● 现在去做hadoop的公司工作还有前途吗？
● 问个L家设计题分布式 inverted index设计	● 提供内推data science engineer (转载)
● hadoop面试和学习总结	● 选错组了?

相关话题的讨论汇总
话题: 文件话题: merge话题: 数据话题: gb话题: cascading

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天