j********v 发帖数: 16 | 1 在自己机器上有十几个.csv文件,每个文件几十GB,每行是用户在某个时刻的信息,目
标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序,对每个用
户再按时间排序,算下来merge完这个大文件有几百个GB,存在local不现实,想merge
的时候直接把输出存在Amazon S3里
如果不想把数据存在Cassandra这样的数据库里,只想一次性地处理数据,哪些open
source tools可以很好地解决这个问题?Hadoop (MapReduce), Hive, Pig, Cascading
, etc.? 怎样的一种组合最佳? 谢谢! | s******c 发帖数: 1920 | 2 写个mapreduce就好了啊
id是partition key
timestamp是secondary key
merge
Cascading
【在 j********v 的大作中提到】 : 在自己机器上有十几个.csv文件,每个文件几十GB,每行是用户在某个时刻的信息,目 : 标是把这十几个文件merge成一个.csv大文件, 这个大文件先按用户id排序,对每个用 : 户再按时间排序,算下来merge完这个大文件有几百个GB,存在local不现实,想merge : 的时候直接把输出存在Amazon S3里 : 如果不想把数据存在Cassandra这样的数据库里,只想一次性地处理数据,哪些open : source tools可以很好地解决这个问题?Hadoop (MapReduce), Hive, Pig, Cascading : , etc.? 怎样的一种组合最佳? 谢谢!
|
|