|
|
|
|
|
|
s****e 发帖数: 1180 | 1 【 以下文字转载自 Statistics 讨论区 】
发信人: sheide (shei), 信区: Statistics
标 题: 诚心请教大data set到底该怎么分析?
发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东)
诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这
两种C平台能分析了这么大的data set 吗?多谢,多谢。 | r********8 发帖数: 3314 | 2 用 Matlab 和自己写 C程序。
对于big data set 可以进行先分组分析,再合并。
进行 covarinace matrix 分析,计算 Eigenvalue and Eigenvecotr.
PCA分析, multivariate regression test.等等。
【在 s****e 的大作中提到】 : 【 以下文字转载自 Statistics 讨论区 】 : 发信人: sheide (shei), 信区: Statistics : 标 题: 诚心请教大data set到底该怎么分析? : 发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东) : 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分 : 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用 : R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好 : 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的 : project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今 : 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
| T******e 发帖数: 18290 | 3 反问之:为什么R handle不了?memory issue?
【在 s****e 的大作中提到】 : 【 以下文字转载自 Statistics 讨论区 】 : 发信人: sheide (shei), 信区: Statistics : 标 题: 诚心请教大data set到底该怎么分析? : 发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东) : 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分 : 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用 : R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好 : 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的 : project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今 : 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
| j******0 发帖数: 3 | 4 use Hadoop to handle big data set |
|
|
|
|
|
|