诚心请教大data set到底该怎么分析？ - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 诚心请教大data set到底该怎么分析？

相关主题
● 问一个principal component的分布问题	● 请教怎么用PCA capture pairwise covariance (with missing va
● how to Use PCA to get eignen vector and eigen value	● [合集] 有人知道causal inference吗？
● 新手请教一个分类问题	● 问个关于GLS的问题
● 用PCA的时候，如果P比N大怎么办啊？	● AR(1) Model: Are the results the same?
● PCA and linear regression	● Covariance matrix estimate
● 请教多元线性回归的问题	● 包子问一个统计基本概念
● 问两个一直含糊不清的marketing analysis 的问题	● 问个概念。
● PCA 分析请教	● 急问一个analysis of covariance的问题

相关话题的讨论汇总
话题: set话题: data话题: 分析话题: 诚心话题: 到底

进入Statistics版参与讨论

1

(共1页)

s****e 发帖数: 1180	1 诚心请教大data set到底该怎么分析？今天面试的一个问题，说是有一个data set要分析，有100 million个observations，200 thousand个covariates，公司不用SAS，只用 R和Python，但这么大的data set R 完全handle不了，问我该怎么办？用C？我会C。好象版上以前有讨论过大data set，但好象一般学校的phd program 都没这方面的 project（whatever,我胡说的，反正我们学校是这样，不知道其他学校怎么样？），今天终于让我碰上了。大家知道这方面一般都怎么办？有什么常规方法？或是有什么实用的参考书吗？还有如果用C的话，我一般就用 dev c++ IDE，或是用linux gcc，请问这两种C平台能分析了这么大的data set 吗？多谢，多谢。
l***a 发帖数: 12410	2 你当时都怎么回答的？【在 s****e 的大作中提到】 : 诚心请教大data set到底该怎么分析？今天面试的一个问题，说是有一个data set要分 : 析，有100 million个observations，200 thousand个covariates，公司不用SAS，只用 : R和Python，但这么大的data set R 完全handle不了，问我该怎么办？用C？我会C。好 : 象版上以前有讨论过大data set，但好象一般学校的phd program 都没这方面的 : project（whatever,我胡说的，反正我们学校是这样，不知道其他学校怎么样？），今 : 天终于让我碰上了。大家知道这方面一般都怎么办？有什么常规方法？或是有什么实用 : 的参考书吗？还有如果用C的话，我一般就用 dev c++ IDE，或是用linux gcc，请问这 : 两种C平台能分析了这么大的data set 吗？多谢，多谢。
s****e 发帖数: 1180	3 will this help? http://www.r-bloggers.com/webinar-big-data-analysis-with-revolu
F******n 发帖数: 160	4 这个在某种程度上是个开放式的问题，现在都还有很多人在研发更新的方法和模型。当然有很多已经建立的常规方法和工具。首先这个应该和用C或者C++没太大关系，因为C、C++是通用性的语言工具而已。和具体的软件可能有点关系，如果某种语言实现了处理大数据的模型和框架。真正有关系的应该是关于大数据处理的模型框架和算法思想，说说我知道的吧。关于模型框架方面的，最常规的就是并行计算模型。对于像特拉字节级别的大数据，多进程的并行计算模型（比如老的MPI)和基于类似思想发展出来的新框架（谷歌的 MapReduce）都可以帮助大型数据处理。比如说，如果R实现了和并行计算包接口的功能，就会有用。当然还有很多新的工具都针对大型数据的，比如最新的，Apache开源的 Hadoop。关于算法思想上的，就是指的计算数据结构优化，统计算法的scalability。比如说你可以用常规PCA来处理成千上万的数据点，但是如果数据点总量是特拉字节级别的，巨大数量的协变量，你没法一次性读入到内存，更别说来一次运行PCA算法，所以你得批量递增式的处理，要自己构造批量递增式的算法，但保证和一次性的PCA有一致的结果。还比如你可以利用大数据的统计分布逼近的思想，来设计和构造算法，等等。。。我非统计专业，随便说说的，不一定对。【在 s****e 的大作中提到】 : 诚心请教大data set到底该怎么分析？今天面试的一个问题，说是有一个data set要分 : 析，有100 million个observations，200 thousand个covariates，公司不用SAS，只用 : R和Python，但这么大的data set R 完全handle不了，问我该怎么办？用C？我会C。好 : 象版上以前有讨论过大data set，但好象一般学校的phd program 都没这方面的 : project（whatever,我胡说的，反正我们学校是这样，不知道其他学校怎么样？），今 : 天终于让我碰上了。大家知道这方面一般都怎么办？有什么常规方法？或是有什么实用 : 的参考书吗？还有如果用C的话，我一般就用 dev c++ IDE，或是用linux gcc，请问这 : 两种C平台能分析了这么大的data set 吗？多谢，多谢。
l******n 发帖数: 9344	5 感觉首先要弄明白他的这个“怎么分析”是指的什么东西【在 F******n 的大作中提到】 : 这个在某种程度上是个开放式的问题，现在都还有很多人在研发更新的方法和模型。当 : 然有很多已经建立的常规方法和工具。 : 首先这个应该和用C或者C++没太大关系，因为C、C++是通用性的语言工具而已。和具体 : 的软件可能有点关系，如果某种语言实现了处理大数据的模型和框架。真正有关系的应 : 该是关于大数据处理的模型框架和算法思想，说说我知道的吧。 : 关于模型框架方面的，最常规的就是并行计算模型。对于像特拉字节级别的大数据，多 : 进程的并行计算模型（比如老的MPI)和基于类似思想发展出来的新框架（谷歌的 : MapReduce）都可以帮助大型数据处理。比如说，如果R实现了和并行计算包接口的功能 : ，就会有用。当然还有很多新的工具都针对大型数据的，比如最新的，Apache开源的 : Hadoop。

1

(共1页)

进入Statistics版参与讨论

相关主题
● 急问一个analysis of covariance的问题	● PCA and linear regression
● question on time-dependent baseline in SAS phreg!	● 请教多元线性回归的问题
● 求教顾客各种属性\所定杂志 PATTERN 的分析	● 问两个一直含糊不清的marketing analysis 的问题
● 请问用什么statistic 来measure covariance matrix估计的好不好	● PCA 分析请教
● 问一个principal component的分布问题	● 请教怎么用PCA capture pairwise covariance (with missing va
● how to Use PCA to get eignen vector and eigen value	● [合集] 有人知道causal inference吗？
● 新手请教一个分类问题	● 问个关于GLS的问题
● 用PCA的时候，如果P比N大怎么办啊？	● AR(1) Model: Are the results the same?

相关话题的讨论汇总
话题: set话题: data话题: 分析话题: 诚心话题: 到底

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)