p********r 发帖数: 1465 | 1 求职过程中经常被问到有关large data set的经验。多大的算是large data set 呢?
在校期间做过6、7万大小的data,算不算?还是说只有几十万上百万的才算是large
data set... |
s*******f 发帖数: 148 | 2 我摆弄过两个,都是30 million records,一个字符比较少,3G,还有一个字符多,7G
的txt。这些都算是large data set,不过只是moderately large data set.
一般million+ records就算large data set. |
p********a 发帖数: 5352 | 3 凡是问这个问题的,基本上没见过LARGE DATASET。
不仅仅看RECORDS,还要看VARIABLE数目啊。我们天天和这个东西打交道,最大的一个
DATA有几千亿RECORDS。当然包括几千万人的数据 |
a***g 发帖数: 2761 | |
o****o 发帖数: 8077 | 5 还是斑竹威猛
【在 p********a 的大作中提到】 : 凡是问这个问题的,基本上没见过LARGE DATASET。 : 不仅仅看RECORDS,还要看VARIABLE数目啊。我们天天和这个东西打交道,最大的一个 : DATA有几千亿RECORDS。当然包括几千万人的数据
|
A*******s 发帖数: 3942 | 6 医疗数据nb啊!
估计也是垄断公司吧
【在 p********a 的大作中提到】 : 凡是问这个问题的,基本上没见过LARGE DATASET。 : 不仅仅看RECORDS,还要看VARIABLE数目啊。我们天天和这个东西打交道,最大的一个 : DATA有几千亿RECORDS。当然包括几千万人的数据
|
w*********a 发帖数: 156 | 7 请问一下,如果对方面试问了是否用过large data set的问题,他是想问什么呢?
large data set
有什么特别的地方呢
【在 p********a 的大作中提到】 : 凡是问这个问题的,基本上没见过LARGE DATASET。 : 不仅仅看RECORDS,还要看VARIABLE数目啊。我们天天和这个东西打交道,最大的一个 : DATA有几千亿RECORDS。当然包括几千万人的数据
|
d******e 发帖数: 7844 | 8 我觉得数据大不大取决于你的model。
你要是只算mean和variance,做做T-test,上千万也不回觉得大。
你要是做个lasso,几百万个数据,几十万个variable就很强大了。
你要是做个graphical lasso,几十万个varaible的话那就无敌了。。
【在 p********r 的大作中提到】 : 求职过程中经常被问到有关large data set的经验。多大的算是large data set 呢? : 在校期间做过6、7万大小的data,算不算?还是说只有几十万上百万的才算是large : data set...
|
a******n 发帖数: 11246 | 9 嗯,有道理...
呢?
large
【在 d******e 的大作中提到】 : 我觉得数据大不大取决于你的model。 : 你要是只算mean和variance,做做T-test,上千万也不回觉得大。 : 你要是做个lasso,几百万个数据,几十万个variable就很强大了。 : 你要是做个graphical lasso,几十万个varaible的话那就无敌了。。
|
a******n 发帖数: 11246 | 10 同问同问。
我自己没有任何large data set经验,但是怎么回答
别人,可以让别人觉得我虽然没经验,但是应该可以
handle呢...
一个
【在 w*********a 的大作中提到】 : 请问一下,如果对方面试问了是否用过large data set的问题,他是想问什么呢? : large data set : 有什么特别的地方呢
|
|
|
c*****1 发帖数: 131 | 11 有点被吓倒了,几十万个variable
崇拜
【在 d******e 的大作中提到】 : 我觉得数据大不大取决于你的model。 : 你要是只算mean和variance,做做T-test,上千万也不回觉得大。 : 你要是做个lasso,几百万个数据,几十万个variable就很强大了。 : 你要是做个graphical lasso,几十万个varaible的话那就无敌了。。
|
A*******s 发帖数: 3942 | 12 用sas的,看看advanced里的performance optimization那些东东,有些大概的概念就
行了吧。我觉得面试官对这些期望也不高,毕竟在校学生大多没啥机会接触这么大的
data。
不太懂R,不过看过某本书的一章是关于high performance R,应该和这个相关。
【在 a******n 的大作中提到】 : 同问同问。 : 我自己没有任何large data set经验,但是怎么回答 : 别人,可以让别人觉得我虽然没经验,但是应该可以 : handle呢... : : 一个
|
d******e 发帖数: 7844 | 13 第二个已经有人能做了,最后一个好像目前没人能很有效率的做
【在 c*****1 的大作中提到】 : 有点被吓倒了,几十万个variable : 崇拜
|
a******n 发帖数: 11246 | 14 非常感谢!
很有用。
【在 A*******s 的大作中提到】 : 用sas的,看看advanced里的performance optimization那些东东,有些大概的概念就 : 行了吧。我觉得面试官对这些期望也不高,毕竟在校学生大多没啥机会接触这么大的 : data。 : 不太懂R,不过看过某本书的一章是关于high performance R,应该和这个相关。
|
c*****t 发帖数: 1712 | 15 我觉得最大的concern 是efficiency,涉及到一些coding的方式和技巧。
稍微网上搜一下吧,很多资源的。 |
B******5 发帖数: 4676 | 16 怎么做第二个?用glmnet?
【在 d******e 的大作中提到】 : 第二个已经有人能做了,最后一个好像目前没人能很有效率的做
|
d******e 发帖数: 7844 | 17 怎么可能用glmnet。
用的是随机优化或者并行计算。
【在 B******5 的大作中提到】 : 怎么做第二个?用glmnet?
|
d**********r 发帖数: 24123 | |
B******5 发帖数: 4676 | 19 I see. 能refer个paper看看么,谢谢
【在 d******e 的大作中提到】 : 怎么可能用glmnet。 : 用的是随机优化或者并行计算。
|
d******e 发帖数: 7844 | |
B******5 发帖数: 4676 | |
l*********s 发帖数: 5409 | |