由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 多大的data算是large data set?
相关主题
An interview question求教一个简单的data step 牛肉包
从大data 产生多个小data 的方法SAS 问题:关于比较variable 包子答谢
要面试了,请问实际工作中large data set都是存在那里的?请教: 关于面试 被问到 large data sets
how to informat on a large number of variables?问个关于lasso的问题
building prediction models from large datasetR里面regression 变量选择的package?
in =option的一道题请问大家现在做adaptive LASSO都用R的什么package?
R table问题弱问关于使用adaptive lasso中weight的问题
问一个SAS DATA 处理的问题,谢谢!请教一个lasso的问题,如何选定最后的model
相关话题的讨论汇总
话题: data话题: large话题: set话题: 算是话题: records
进入Statistics版参与讨论
1 (共1页)
p********r
发帖数: 1465
1
求职过程中经常被问到有关large data set的经验。多大的算是large data set 呢?
在校期间做过6、7万大小的data,算不算?还是说只有几十万上百万的才算是large
data set...
s*******f
发帖数: 148
2
我摆弄过两个,都是30 million records,一个字符比较少,3G,还有一个字符多,7G
的txt。这些都算是large data set,不过只是moderately large data set.
一般million+ records就算large data set.
p********a
发帖数: 5352
3
凡是问这个问题的,基本上没见过LARGE DATASET。
不仅仅看RECORDS,还要看VARIABLE数目啊。我们天天和这个东西打交道,最大的一个
DATA有几千亿RECORDS。当然包括几千万人的数据
a***g
发帖数: 2761
4
这个牛逼,听说过没见过
o****o
发帖数: 8077
5
还是斑竹威猛

【在 p********a 的大作中提到】
: 凡是问这个问题的,基本上没见过LARGE DATASET。
: 不仅仅看RECORDS,还要看VARIABLE数目啊。我们天天和这个东西打交道,最大的一个
: DATA有几千亿RECORDS。当然包括几千万人的数据

A*******s
发帖数: 3942
6
医疗数据nb啊!
估计也是垄断公司吧

【在 p********a 的大作中提到】
: 凡是问这个问题的,基本上没见过LARGE DATASET。
: 不仅仅看RECORDS,还要看VARIABLE数目啊。我们天天和这个东西打交道,最大的一个
: DATA有几千亿RECORDS。当然包括几千万人的数据

w*********a
发帖数: 156
7
请问一下,如果对方面试问了是否用过large data set的问题,他是想问什么呢?
large data set
有什么特别的地方呢

【在 p********a 的大作中提到】
: 凡是问这个问题的,基本上没见过LARGE DATASET。
: 不仅仅看RECORDS,还要看VARIABLE数目啊。我们天天和这个东西打交道,最大的一个
: DATA有几千亿RECORDS。当然包括几千万人的数据

d******e
发帖数: 7844
8
我觉得数据大不大取决于你的model。
你要是只算mean和variance,做做T-test,上千万也不回觉得大。
你要是做个lasso,几百万个数据,几十万个variable就很强大了。
你要是做个graphical lasso,几十万个varaible的话那就无敌了。。

【在 p********r 的大作中提到】
: 求职过程中经常被问到有关large data set的经验。多大的算是large data set 呢?
: 在校期间做过6、7万大小的data,算不算?还是说只有几十万上百万的才算是large
: data set...

a******n
发帖数: 11246
9
嗯,有道理...

呢?
large

【在 d******e 的大作中提到】
: 我觉得数据大不大取决于你的model。
: 你要是只算mean和variance,做做T-test,上千万也不回觉得大。
: 你要是做个lasso,几百万个数据,几十万个variable就很强大了。
: 你要是做个graphical lasso,几十万个varaible的话那就无敌了。。

a******n
发帖数: 11246
10
同问同问。
我自己没有任何large data set经验,但是怎么回答
别人,可以让别人觉得我虽然没经验,但是应该可以
handle呢...

一个

【在 w*********a 的大作中提到】
: 请问一下,如果对方面试问了是否用过large data set的问题,他是想问什么呢?
: large data set
: 有什么特别的地方呢

相关主题
in =option的一道题求教一个简单的data step 牛肉包
R table问题弱问SAS 问题:关于比较variable 包子答谢
问一个SAS DATA 处理的问题,谢谢!请教: 关于面试 被问到 large data sets
进入Statistics版参与讨论
c*****1
发帖数: 131
11
有点被吓倒了,几十万个variable
崇拜

【在 d******e 的大作中提到】
: 我觉得数据大不大取决于你的model。
: 你要是只算mean和variance,做做T-test,上千万也不回觉得大。
: 你要是做个lasso,几百万个数据,几十万个variable就很强大了。
: 你要是做个graphical lasso,几十万个varaible的话那就无敌了。。

A*******s
发帖数: 3942
12
用sas的,看看advanced里的performance optimization那些东东,有些大概的概念就
行了吧。我觉得面试官对这些期望也不高,毕竟在校学生大多没啥机会接触这么大的
data。
不太懂R,不过看过某本书的一章是关于high performance R,应该和这个相关。

【在 a******n 的大作中提到】
: 同问同问。
: 我自己没有任何large data set经验,但是怎么回答
: 别人,可以让别人觉得我虽然没经验,但是应该可以
: handle呢...
:
: 一个

d******e
发帖数: 7844
13
第二个已经有人能做了,最后一个好像目前没人能很有效率的做

【在 c*****1 的大作中提到】
: 有点被吓倒了,几十万个variable
: 崇拜

a******n
发帖数: 11246
14
非常感谢!
很有用。

【在 A*******s 的大作中提到】
: 用sas的,看看advanced里的performance optimization那些东东,有些大概的概念就
: 行了吧。我觉得面试官对这些期望也不高,毕竟在校学生大多没啥机会接触这么大的
: data。
: 不太懂R,不过看过某本书的一章是关于high performance R,应该和这个相关。

c*****t
发帖数: 1712
15
我觉得最大的concern 是efficiency,涉及到一些coding的方式和技巧。
稍微网上搜一下吧,很多资源的。
B******5
发帖数: 4676
16
怎么做第二个?用glmnet?

【在 d******e 的大作中提到】
: 第二个已经有人能做了,最后一个好像目前没人能很有效率的做
d******e
发帖数: 7844
17
怎么可能用glmnet。
用的是随机优化或者并行计算。

【在 B******5 的大作中提到】
: 怎么做第二个?用glmnet?
d**********r
发帖数: 24123
18
至少要百万,一般是千万以上的。
B******5
发帖数: 4676
19
I see. 能refer个paper看看么,谢谢

【在 d******e 的大作中提到】
: 怎么可能用glmnet。
: 用的是随机优化或者并行计算。

d******e
发帖数: 7844
20
http://www.cs.berkeley.edu/~jduchi/projects/DuchiHaSi10.pdf
http://select.cs.cmu.edu/publications/paperdir/icml2011-bradley
-guestrin.pdf

【在 B******5 的大作中提到】
: I see. 能refer个paper看看么,谢谢
B******5
发帖数: 4676
l*********s
发帖数: 5409
22
mark
1 (共1页)
进入Statistics版参与讨论
相关主题
请教一个lasso的问题,如何选定最后的modelbuilding prediction models from large dataset
新手请教logistic regressionin =option的一道题
[help]10个包子求KDD cup 2009 的orange公司datasetR table问题弱问
R glmnet 大数据问一个SAS DATA 处理的问题,谢谢!
An interview question求教一个简单的data step 牛肉包
从大data 产生多个小data 的方法SAS 问题:关于比较variable 包子答谢
要面试了,请问实际工作中large data set都是存在那里的?请教: 关于面试 被问到 large data sets
how to informat on a large number of variables?问个关于lasso的问题
相关话题的讨论汇总
话题: data话题: large话题: set话题: 算是话题: records