merge单个文件800GB的文件 - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - merge单个文件800GB的文件

相关主题
● 保险的modeler好不好？	● 大家推荐下学习python,hadoop的网上资源
● 来讲讲SAS的优点吧	● ~StatsGuy: 再次感谢选课的同学们!
● 跪求Seattle附近统计职位内推	● 分享两个data scientist职位的面经
● 想做SAS programmer，求教各位前辈如何找intern机会	● 问题回复: Python为啥只有两个小时的课？
● 求内推湾区analyst职位	● 六月份上Python/R/Hive 课的同学请与我联系
● [SAS] row merging	● 最近统计工作好找吗
● 在集成的cloudera hadoop中计算词频（wordcount)	● 做培训的有一点感受
● got data scientist offer, 以后要在本版多学习了	● 也谈为什麽要学习Python

相关话题的讨论汇总
话题: 文件话题: hadoop话题: 800gb话题: 单个话题: sas

进入Statistics版参与讨论

1

(共1页)

F****3 发帖数: 1504	1 是不是要用hadoop比较有效率？现在已经run了20多个小时了，还没有run完。请如果用 hadoop是不是快很多。学起来难吗？
p********a 发帖数: 5352	2 很好奇什么东西有800G
F****3 发帖数: 1504	3 股票
d********h 发帖数: 2048	4 health claims随便搞搞都是tb级的，【在 p********a 的大作中提到】 : 很好奇什么东西有800G
p********a 发帖数: 5352	5 是可以。不过一般不会放在一个TABLE上。东西太大处理起来就有效率的问题【在 d********h 的大作中提到】 : health claims随便搞搞都是tb级的，
p********a 发帖数: 5352	6 我就猜到是这个。每毫秒一个QUOTE，一天就几个G了【在 F****3 的大作中提到】 : 股票
z*********i 发帖数: 146	7 很对我这一个table100G 现在都后悔没多分几个了效率确实不高【在 p********a 的大作中提到】 : 是可以。不过一般不会放在一个TABLE上。东西太大处理起来就有效率的问题
k*z 发帖数: 4704	8 过后也可以做分区。
z*********i 发帖数: 146	9 哦做好的table 放到server上后再改动流程比较多有点麻烦现在效率低点但还在接受范围只是感叹当时自己没什么经验考虑的不够周到【在 k*z 的大作中提到】 : 过后也可以做分区。
F****3 发帖数: 1504	10 table分开了怎么运算了。什么proc sql什么都不能用了吧？请问分区是什么意思呢？SAS英文叫什么。这些文件本来都是单个文件的。我自己 append搞成一个巨大文件。以前是按天分的。请问那样子可以不用合并，把所有文件视为一个文件吗？
g****l 发帖数: 213	11 这个应该用hadoop 加 pig/hive 处理数据了，可以考虑AWS ?
F****3 发帖数: 1504	12 问了CS的人说Hadoop很难学。和SAS不是一个level的 SAS里面的hadoop是不是编程起来容易一些？

1

(共1页)

进入Statistics版参与讨论

相关主题
● 也谈为什麽要学习Python	● 求内推湾区analyst职位
● 十二月份上 Hadoop/Hive 实战课的同学可以与我联系	● [SAS] row merging
● 二月及三月上Python/R/Hadoop/Tableau课的同学请与我联系	● 在集成的cloudera hadoop中计算词频（wordcount)
● 给今年毕业的同学们出一个主意	● got data scientist offer, 以后要在本版多学习了
● 保险的modeler好不好？	● 大家推荐下学习python,hadoop的网上资源
● 来讲讲SAS的优点吧	● ~StatsGuy: 再次感谢选课的同学们!
● 跪求Seattle附近统计职位内推	● 分享两个data scientist职位的面经
● 想做SAS programmer，求教各位前辈如何找intern机会	● 问题回复: Python为啥只有两个小时的课？

相关话题的讨论汇总
话题: 文件话题: hadoop话题: 800gb话题: 单个话题: sas

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)