由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 请教一个大数据的问题
相关主题
大家如何选择offer呢?如何用hadoop 析取各种数据?
招数据科学家 (转载)现在去做hadoop的公司工作还有前途吗?
问个L家设计题 分布式 inverted index设计提供内推data science engineer (转载)
hadoop面试和学习总结选错组了?
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?三星samsung创新部门招大数据工程师
Career Path to G, F, A求Google 的 Data Science 有关的位置内推
sf downtown中型startup招人scientist 是不是比analyst pay的高一些啊?
该选哪个方向问个MapReduce面试题
相关话题的讨论汇总
话题: 文件话题: merge话题: 数据话题: gb话题: cascading
进入JobHunting版参与讨论
1 (共1页)
j********v
发帖数: 16
1
在自己机器上有十几个.csv文件,每个文件几十GB,每行是用户在某个时刻的信息,目
标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序,对每个用
户再按时间排序,算下来merge完这个大文件有几百个GB,存在local不现实,想merge
的时候直接把输出存在Amazon S3里
如果不想把数据存在Cassandra这样的数据库里,只想一次性地处理数据,哪些open
source tools可以很好地解决这个问题?Hadoop (MapReduce), Hive, Pig, Cascading
, etc.? 怎样的一种组合最佳? 谢谢!
s******c
发帖数: 1920
2
写个mapreduce就好了啊
id是partition key
timestamp是secondary key

merge
Cascading

【在 j********v 的大作中提到】
: 在自己机器上有十几个.csv文件,每个文件几十GB,每行是用户在某个时刻的信息,目
: 标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序,对每个用
: 户再按时间排序,算下来merge完这个大文件有几百个GB,存在local不现实,想merge
: 的时候直接把输出存在Amazon S3里
: 如果不想把数据存在Cassandra这样的数据库里,只想一次性地处理数据,哪些open
: source tools可以很好地解决这个问题?Hadoop (MapReduce), Hive, Pig, Cascading
: , etc.? 怎样的一种组合最佳? 谢谢!

1 (共1页)
进入JobHunting版参与讨论
相关主题
问个MapReduce面试题还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?
workday onsite面经,已挂Career Path to G, F, A
国内科技现在发展太快了,蚂蚁金服旗下芝麻信用分可办理申根签证sf downtown中型startup招人
[原创] 揭开大数据平台Hadoop的真面目 5分钟包教包会 (转载)该选哪个方向
大家如何选择offer呢?如何用hadoop 析取各种数据?
招数据科学家 (转载)现在去做hadoop的公司工作还有前途吗?
问个L家设计题 分布式 inverted index设计提供内推data science engineer (转载)
hadoop面试和学习总结选错组了?
相关话题的讨论汇总
话题: 文件话题: merge话题: 数据话题: gb话题: cascading