s****e 发帖数: 1180 | 1 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这
两种C平台能分析了这么大的data set 吗?多谢,多谢。 |
l***a 发帖数: 12410 | 2 你当时都怎么回答的?
【在 s****e 的大作中提到】 : 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分 : 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用 : R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好 : 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的 : project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今 : 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用 : 的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这 : 两种C平台能分析了这么大的data set 吗?多谢,多谢。
|
s****e 发帖数: 1180 | |
F******n 发帖数: 160 | 4 这个在某种程度上是个开放式的问题,现在都还有很多人在研发更新的方法和模型。当
然有很多已经建立的常规方法和工具。
首先这个应该和用C或者C++没太大关系,因为C、C++是通用性的语言工具而已。和具体
的软件可能有点关系,如果某种语言实现了处理大数据的模型和框架。真正有关系的应
该是关于大数据处理的模型框架和算法思想,说说我知道的吧。
关于模型框架方面的,最常规的就是并行计算模型。对于像特拉字节级别的大数据,多
进程的并行计算模型(比如老的MPI)和基于类似思想发展出来的新框架(谷歌的
MapReduce)都可以帮助大型数据处理。比如说,如果R实现了和并行计算包接口的功能
,就会有用。当然还有很多新的工具都针对大型数据的,比如最新的,Apache开源的
Hadoop。
关于算法思想上的,就是指的计算数据结构优化,统计算法的scalability。比如说你
可以用常规PCA来处理成千上万的数据点,但是如果数据点总量是特拉字节级别的,巨
大数量的协变量,你没法一次性读入到内存,更别说来一次运行PCA算法,所以你得批
量递增式的处理,要自己构造批量递增式的算法,但保证和一次性的PCA有一致的结果
。还比如你可以利用大数据的统计分布逼近的思想,来设计和构造算法,等等。。。
我非统计专业,随便说说的,不一定对。
【在 s****e 的大作中提到】 : 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分 : 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用 : R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好 : 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的 : project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今 : 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用 : 的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这 : 两种C平台能分析了这么大的data set 吗?多谢,多谢。
|
l******n 发帖数: 9344 | 5 感觉首先要弄明白他的这个“怎么分析”是指的什么东西
【在 F******n 的大作中提到】 : 这个在某种程度上是个开放式的问题,现在都还有很多人在研发更新的方法和模型。当 : 然有很多已经建立的常规方法和工具。 : 首先这个应该和用C或者C++没太大关系,因为C、C++是通用性的语言工具而已。和具体 : 的软件可能有点关系,如果某种语言实现了处理大数据的模型和框架。真正有关系的应 : 该是关于大数据处理的模型框架和算法思想,说说我知道的吧。 : 关于模型框架方面的,最常规的就是并行计算模型。对于像特拉字节级别的大数据,多 : 进程的并行计算模型(比如老的MPI)和基于类似思想发展出来的新框架(谷歌的 : MapReduce)都可以帮助大型数据处理。比如说,如果R实现了和并行计算包接口的功能 : ,就会有用。当然还有很多新的工具都针对大型数据的,比如最新的,Apache开源的 : Hadoop。
|