b*******g 发帖数: 513 | 1 【 以下文字转载自 Statistics 讨论区 】
发信人: sheide (shei), 信区: Statistics
标 题: 诚心请教大data set到底该怎么分析?
发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东)
诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这
两种C平台能分析了这么大的data set 吗?多谢,多谢。 | e****e 发帖数: 3450 | 2 R 怎么handle不了
【在 b*******g 的大作中提到】 : 【 以下文字转载自 Statistics 讨论区 】 : 发信人: sheide (shei), 信区: Statistics : 标 题: 诚心请教大data set到底该怎么分析? : 发信站: BBS 未名空间站 (Wed Jun 22 18:39:19 2011, 美东) : 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分 : 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用 : R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好 : 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的 : project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今 : 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
|
|