由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 诚心请教大data set到底该怎么分析?
相关主题
问一个principal component的分布问题请教怎么用PCA capture pairwise covariance (with missing va
how to Use PCA to get eignen vector and eigen value[合集] 有人知道causal inference吗?
新手请教一个分类问题问个关于GLS的问题
用PCA的时候,如果P比N大怎么办啊?AR(1) Model: Are the results the same?
PCA and linear regressionCovariance matrix estimate
请教多元线性回归的问题包子问一个统计基本概念
问两个一直含糊不清的marketing analysis 的问题问个概念。
PCA 分析请教急问一个analysis of covariance的问题
相关话题的讨论汇总
话题: set话题: data话题: 分析话题: 诚心话题: 到底
进入Statistics版参与讨论
1 (共1页)
s****e
发帖数: 1180
1
诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这
两种C平台能分析了这么大的data set 吗?多谢,多谢。
l***a
发帖数: 12410
2
你当时都怎么回答的?

【在 s****e 的大作中提到】
: 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
: 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
: R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
: 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
: project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
: 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
: 的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这
: 两种C平台能分析了这么大的data set 吗?多谢,多谢。

s****e
发帖数: 1180
F******n
发帖数: 160
4
这个在某种程度上是个开放式的问题,现在都还有很多人在研发更新的方法和模型。当
然有很多已经建立的常规方法和工具。
首先这个应该和用C或者C++没太大关系,因为C、C++是通用性的语言工具而已。和具体
的软件可能有点关系,如果某种语言实现了处理大数据的模型和框架。真正有关系的应
该是关于大数据处理的模型框架和算法思想,说说我知道的吧。
关于模型框架方面的,最常规的就是并行计算模型。对于像特拉字节级别的大数据,多
进程的并行计算模型(比如老的MPI)和基于类似思想发展出来的新框架(谷歌的
MapReduce)都可以帮助大型数据处理。比如说,如果R实现了和并行计算包接口的功能
,就会有用。当然还有很多新的工具都针对大型数据的,比如最新的,Apache开源的
Hadoop。
关于算法思想上的,就是指的计算数据结构优化,统计算法的scalability。比如说你
可以用常规PCA来处理成千上万的数据点,但是如果数据点总量是特拉字节级别的,巨
大数量的协变量,你没法一次性读入到内存,更别说来一次运行PCA算法,所以你得批
量递增式的处理,要自己构造批量递增式的算法,但保证和一次性的PCA有一致的结果
。还比如你可以利用大数据的统计分布逼近的思想,来设计和构造算法,等等。。。
我非统计专业,随便说说的,不一定对。

【在 s****e 的大作中提到】
: 诚心请教大data set到底该怎么分析?今天面试的一个问题,说是有一个data set要分
: 析,有100 million个observations,200 thousand个covariates,公司不用SAS,只用
: R和Python,但这么大的data set R 完全handle不了,问我该怎么办?用C?我会C。好
: 象版上以前有讨论过大data set,但好象一般学校的phd program 都没这方面的
: project(whatever,我胡说的,反正我们学校是这样,不知道其他学校怎么样?),今
: 天终于让我碰上了。大家知道这方面一般都怎么办?有什么常规方法?或是有什么实用
: 的参考书吗?还有如果用C的话,我一般就用 dev c++ IDE,或是用linux gcc,请问这
: 两种C平台能分析了这么大的data set 吗?多谢,多谢。

l******n
发帖数: 9344
5
感觉首先要弄明白他的这个“怎么分析”是指的什么东西

【在 F******n 的大作中提到】
: 这个在某种程度上是个开放式的问题,现在都还有很多人在研发更新的方法和模型。当
: 然有很多已经建立的常规方法和工具。
: 首先这个应该和用C或者C++没太大关系,因为C、C++是通用性的语言工具而已。和具体
: 的软件可能有点关系,如果某种语言实现了处理大数据的模型和框架。真正有关系的应
: 该是关于大数据处理的模型框架和算法思想,说说我知道的吧。
: 关于模型框架方面的,最常规的就是并行计算模型。对于像特拉字节级别的大数据,多
: 进程的并行计算模型(比如老的MPI)和基于类似思想发展出来的新框架(谷歌的
: MapReduce)都可以帮助大型数据处理。比如说,如果R实现了和并行计算包接口的功能
: ,就会有用。当然还有很多新的工具都针对大型数据的,比如最新的,Apache开源的
: Hadoop。

1 (共1页)
进入Statistics版参与讨论
相关主题
急问一个analysis of covariance的问题PCA and linear regression
question on time-dependent baseline in SAS phreg!请教多元线性回归的问题
求教 顾客各种属性\所定杂志 PATTERN 的分析问两个一直含糊不清的marketing analysis 的问题
请问用什么statistic 来measure covariance matrix估计的好不好PCA 分析请教
问一个principal component的分布问题请教怎么用PCA capture pairwise covariance (with missing va
how to Use PCA to get eignen vector and eigen value[合集] 有人知道causal inference吗?
新手请教一个分类问题问个关于GLS的问题
用PCA的时候,如果P比N大怎么办啊?AR(1) Model: Are the results the same?
相关话题的讨论汇总
话题: set话题: data话题: 分析话题: 诚心话题: 到底