由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - merge单个文件800GB的文件
相关主题
保险的modeler好不好?大家推荐下学习python,hadoop的网上资源
来讲讲SAS的优点吧~StatsGuy: 再次感谢选课的同学们!
跪求Seattle附近统计职位内推分享两个data scientist职位的面经
想做SAS programmer,求教各位前辈如何找intern机会问题回复: Python为啥只有两个小时的课?
求内推湾区analyst职位六月份上Python/R/Hive 课的同学请与我联系
[SAS] row merging最近统计工作好找吗
在集成的cloudera hadoop中计算词频(wordcount)做培训的有一点感受
got data scientist offer, 以后要在本版多学习了 也谈为什麽要学习Python
相关话题的讨论汇总
话题: 文件话题: hadoop话题: 800gb话题: 单个话题: sas
进入Statistics版参与讨论
1 (共1页)
F****3
发帖数: 1504
1
是不是要用hadoop比较有效率?现在已经run了20多个小时了,还没有run完。请如果用
hadoop是不是快很多。
学起来难吗?
p********a
发帖数: 5352
2
很好奇什么东西有800G
F****3
发帖数: 1504
3
股票
d********h
发帖数: 2048
4
health claims随便搞搞都是tb级的,

【在 p********a 的大作中提到】
: 很好奇什么东西有800G
p********a
发帖数: 5352
5
是可以。不过一般不会放在一个TABLE上。东西太大处理起来就有效率的问题

【在 d********h 的大作中提到】
: health claims随便搞搞都是tb级的,
p********a
发帖数: 5352
6
我就猜到是这个。每毫秒一个QUOTE,一天就几个G了

【在 F****3 的大作中提到】
: 股票
z*********i
发帖数: 146
7
很对 我这一个table100G 现在都后悔没多分几个了 效率确实不高

【在 p********a 的大作中提到】
: 是可以。不过一般不会放在一个TABLE上。东西太大处理起来就有效率的问题
k*z
发帖数: 4704
8
过后也可以做分区。
z*********i
发帖数: 146
9
哦 做好的table 放到server上后再改动 流程比较多 有点麻烦 现在效率低点 但还在
接受范围 只是感叹当时自己没什么经验 考虑的不够周到

【在 k*z 的大作中提到】
: 过后也可以做分区。
F****3
发帖数: 1504
10
table分开了怎么运算了。什么proc sql什么都不能用了吧?
请问分区是什么意思呢?SAS英文叫什么。这些文件本来都是单个文件的。我自己
append搞成一个巨大文件。以前是按天分的。请问那样子可以不用合并,把所有文件视
为一个文件吗?
g****l
发帖数: 213
11
这个应该用hadoop 加 pig/hive 处理数据了,可以考虑AWS ?
F****3
发帖数: 1504
12
问了CS的人说Hadoop很难学。和SAS不是一个level的
SAS里面的hadoop是不是编程起来容易一些?
1 (共1页)
进入Statistics版参与讨论
相关主题
也谈为什麽要学习Python求内推湾区analyst职位
十二月份上 Hadoop/Hive 实战课的同学可以与我联系[SAS] row merging
二月及三月上Python/R/Hadoop/Tableau课的同学请与我联系在集成的cloudera hadoop中计算词频(wordcount)
给今年毕业的同学们出一个主意got data scientist offer, 以后要在本版多学习了
保险的modeler好不好?大家推荐下学习python,hadoop的网上资源
来讲讲SAS的优点吧~StatsGuy: 再次感谢选课的同学们!
跪求Seattle附近统计职位内推分享两个data scientist职位的面经
想做SAS programmer,求教各位前辈如何找intern机会问题回复: Python为啥只有两个小时的课?
相关话题的讨论汇总
话题: 文件话题: hadoop话题: 800gb话题: 单个话题: sas