由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 加大伯克利分校著名科学家:大数据的“冬天”即将到来? (转载)
相关主题
model和variables都sig.但每个category都不sigR classification tree model 请教
请教一个面试问题。model sample size重要吗?
抓狂!为啥选出来的predictor都这么差a risk modeling opening in my team
sample size vs. number of regressors一个最近才得到的一点经验
我用neural net做的model效果还不如logitstic regression算晕了!请教一个组合问题, 包子谢。
求教一个模型/预测问题面试问题求教(更新了啊)
新手请教logistic regression请教一个相关性分析(correlation)的问题
multicollinearity和 predicion model用什么model来model proportion比较好?
相关话题的讨论汇总
话题: 数据话题: data话题: 问题话题: 统计话题: dimension
进入Statistics版参与讨论
1 (共1页)
p**5
发帖数: 2544
1
【 以下文字转载自 DataSciences 讨论区 】
发信人: pp65 (要坚强), 信区: DataSciences
标 题: 加大伯克利分校著名科学家:大数据的“冬天”即将到来?
发信站: BBS 未名空间站 (Mon Jan 5 15:38:01 2015, 美东)
大家怎么看?
http://support.huawei.com/ecommunity/bbs/10240935.html
l******r
发帖数: 18699
2
冬天来了,春天还会远吗?

【在 p**5 的大作中提到】
: 【 以下文字转载自 DataSciences 讨论区 】
: 发信人: pp65 (要坚强), 信区: DataSciences
: 标 题: 加大伯克利分校著名科学家:大数据的“冬天”即将到来?
: 发信站: BBS 未名空间站 (Mon Jan 5 15:38:01 2015, 美东)
: 大家怎么看?
: http://support.huawei.com/ecommunity/bbs/10240935.html

d*******1
发帖数: 854
3
就classification而言,用过多的predictor确实会导致overfitting, 但是解决办法也
简单,限制predictors的数量即可。同时,subject的样本数也提高了,想像一下,一
个两个样本数为500的样本的比较的区分,随即出现的分离是很难的

【在 p**5 的大作中提到】
: 【 以下文字转载自 DataSciences 讨论区 】
: 发信人: pp65 (要坚强), 信区: DataSciences
: 标 题: 加大伯克利分校著名科学家:大数据的“冬天”即将到来?
: 发信站: BBS 未名空间站 (Mon Jan 5 15:38:01 2015, 美东)
: 大家怎么看?
: http://support.huawei.com/ecommunity/bbs/10240935.html

w**p
发帖数: 4080
4
我觉得科学的自我调节能力是很强的。不至于刚刚热上就马上死掉。只不过肯定对DS们
的要求会越来越高。
p****u
发帖数: 2596
5
那可不一定,看看game of thrones,一个冬天上百年,人这辈子就没有拉

【在 l******r 的大作中提到】
: 冬天来了,春天还会远吗?
j****i
发帖数: 340
6
如果真有“冬天”和“泡沫”
那也是因为一大群完全不懂得大数据的人一拥而上的结果
冬天冻死一批投机者,剩下的才能迎来春天
p**5
发帖数: 2544
7
有道理,生物千老说生物不好,但也有干的很好的
只要技术强,总没问题

【在 j****i 的大作中提到】
: 如果真有“冬天”和“泡沫”
: 那也是因为一大群完全不懂得大数据的人一拥而上的结果
: 冬天冻死一批投机者,剩下的才能迎来春天

D******n
发帖数: 2836
8
check out the original post in English, it's more interesting especially MJ'
s response to the interview.

【在 p**5 的大作中提到】
: 有道理,生物千老说生物不好,但也有干的很好的
: 只要技术强,总没问题

K*****2
发帖数: 9308
9
too old
y**u
发帖数: 426
10
求英文链接

MJ'

【在 D******n 的大作中提到】
: check out the original post in English, it's more interesting especially MJ'
: s response to the interview.

相关主题
求教一个模型/预测问题R classification tree model 请教
新手请教logistic regressionmodel sample size重要吗?
multicollinearity和 predicion modela risk modeling opening in my team
进入Statistics版参与讨论
A****t
发帖数: 141
11
http://spectrum.ieee.org/robotics/artificial-intelligence/machi

【在 y**u 的大作中提到】
: 求英文链接
:
: MJ'

h***i
发帖数: 3844
12
换个思路
其实投机的都跑了。剩下的都被拍在沙滩上。
就是为了赚个paycheck,怎么可能会冻死

【在 j****i 的大作中提到】
: 如果真有“冬天”和“泡沫”
: 那也是因为一大群完全不懂得大数据的人一拥而上的结果
: 冬天冻死一批投机者,剩下的才能迎来春天

t****w
发帖数: 130
13
限制predictor的数量,那”小数据“就可以了,大数据还有什么意义呢?

【在 d*******1 的大作中提到】
: 就classification而言,用过多的predictor确实会导致overfitting, 但是解决办法也
: 简单,限制predictors的数量即可。同时,subject的样本数也提高了,想像一下,一
: 个两个样本数为500的样本的比较的区分,随即出现的分离是很难的

d******e
发帖数: 7844
14
这在胡说八道什么东西... ...

【在 d*******1 的大作中提到】
: 就classification而言,用过多的predictor确实会导致overfitting, 但是解决办法也
: 简单,限制predictors的数量即可。同时,subject的样本数也提高了,想像一下,一
: 个两个样本数为500的样本的比较的区分,随即出现的分离是很难的

d******e
发帖数: 7844
15
从大量的predictor重选出一小撮有用的来做prediction,即使是这样,在没有大量
sample的情况下也是很难实现。

法也
,一

【在 t****w 的大作中提到】
: 限制predictor的数量,那”小数据“就可以了,大数据还有什么意义呢?
v*******e
发帖数: 11604
16

大数据便是大sample量,不是大predictor量。

【在 d******e 的大作中提到】
: 从大量的predictor重选出一小撮有用的来做prediction,即使是这样,在没有大量
: sample的情况下也是很难实现。
:
: 法也
: ,一

d******e
发帖数: 7844
17
这是你自己的解读,呵呵。

【在 v*******e 的大作中提到】
:
: 大数据便是大sample量,不是大predictor量。

s********0
发帖数: 2625
18
很好,这个帖子到了17楼就开始出现对“大数据”理解的分歧了,和现实一样,大家都
说大数据,真正交流起来,根本就是鸡同鸭讲。
h*p
发帖数: 1502
19
对的

【在 p**5 的大作中提到】
: 有道理,生物千老说生物不好,但也有干的很好的
: 只要技术强,总没问题

d******e
发帖数: 7844
20
毛啊,分明是很多大数据盲在那里张口大数据,闭口大数据。

【在 s********0 的大作中提到】
: 很好,这个帖子到了17楼就开始出现对“大数据”理解的分歧了,和现实一样,大家都
: 说大数据,真正交流起来,根本就是鸡同鸭讲。

相关主题
一个最近才得到的一点经验请教一个相关性分析(correlation)的问题
算晕了!请教一个组合问题, 包子谢。用什么model来model proportion比较好?
面试问题求教(更新了啊)请教 model fit
进入Statistics版参与讨论
j*********j
发帖数: 124
21
非常同意,大家在评论之前,先把什么是大数据搞清楚吧,不要光看字面意思。。。“
大数据”的意思不只是数量上的大吧。。。

【在 s********0 的大作中提到】
: 很好,这个帖子到了17楼就开始出现对“大数据”理解的分歧了,和现实一样,大家都
: 说大数据,真正交流起来,根本就是鸡同鸭讲。

c***z
发帖数: 6348
22
个人处理的大数据(其实也不算大),主要问题是 unstructured(数据不能直接当
feature用),dirty(没有truthfully labeled data)然后就是没有clearly defined
business problem
d******e
发帖数: 7844
23
我理解的典型大数据问题有几种:
A. Large Sample Size。这种的特点是数据的分布式存储,最大的难度主要还是计算。
分布式计算需要balance communication cost和computational efficinecy。
B. High Dimension。Feature多到眼花缭乱,需要选出有用的。计算仍然是难点,同时
还有统计。问题其实还是Feature Selection and Extraction。这个在传统统计里也有
,不过High Dimension和Fixed Dimension的做法还是有非常大的不同的。所以说大数
据会让很多传统问题难度陡增。
C. Modelling Flexibility。数据大了之后,我们需要用更复杂的model来刻画数据,
很多时候我们希望用一些简单nonparametric model,但如何确定model的复杂程度就成
了问题。
大数据经常是上面3种问题混合出现的。但其实最核心的问题还是计算太难了,而且单
机不光算不动,而且装不下。

defined

【在 c***z 的大作中提到】
: 个人处理的大数据(其实也不算大),主要问题是 unstructured(数据不能直接当
: feature用),dirty(没有truthfully labeled data)然后就是没有clearly defined
: business problem

a***g
发帖数: 2761
24
还有一个条就是越耒越多的动态数据
很多数据都是stream得来的
再不是一个静态的database要去搞了
这也是最近几年在计算和分析都要面对的问题

【在 d******e 的大作中提到】
: 我理解的典型大数据问题有几种:
: A. Large Sample Size。这种的特点是数据的分布式存储,最大的难度主要还是计算。
: 分布式计算需要balance communication cost和computational efficinecy。
: B. High Dimension。Feature多到眼花缭乱,需要选出有用的。计算仍然是难点,同时
: 还有统计。问题其实还是Feature Selection and Extraction。这个在传统统计里也有
: ,不过High Dimension和Fixed Dimension的做法还是有非常大的不同的。所以说大数
: 据会让很多传统问题难度陡增。
: C. Modelling Flexibility。数据大了之后,我们需要用更复杂的model来刻画数据,
: 很多时候我们希望用一些简单nonparametric model,但如何确定model的复杂程度就成
: 了问题。

D******n
发帖数: 2836
25

sample down?
handpicked by some domain experts. This is very applicable for some
traditional industry/business.
if B is reduced to fixed and small dimension, this is not such a problem and
a 90% good model maybe is good
enough
After all
"Big Data needs advanced analytics, (most) analytics does not need big data"

【在 d******e 的大作中提到】
: 我理解的典型大数据问题有几种:
: A. Large Sample Size。这种的特点是数据的分布式存储,最大的难度主要还是计算。
: 分布式计算需要balance communication cost和computational efficinecy。
: B. High Dimension。Feature多到眼花缭乱,需要选出有用的。计算仍然是难点,同时
: 还有统计。问题其实还是Feature Selection and Extraction。这个在传统统计里也有
: ,不过High Dimension和Fixed Dimension的做法还是有非常大的不同的。所以说大数
: 据会让很多传统问题难度陡增。
: C. Modelling Flexibility。数据大了之后,我们需要用更复杂的model来刻画数据,
: 很多时候我们希望用一些简单nonparametric model,但如何确定model的复杂程度就成
: 了问题。

d******e
发帖数: 7844
26

算。
的分布式计算系统硬算。
同时
也有
大数
谱。
据,
就成
and
data"
~~~~后者根本不是我说的point。

【在 D******n 的大作中提到】
:
: sample down?
: handpicked by some domain experts. This is very applicable for some
: traditional industry/business.
: if B is reduced to fixed and small dimension, this is not such a problem and
: a 90% good model maybe is good
: enough
: After all
: "Big Data needs advanced analytics, (most) analytics does not need big data"

l******r
发帖数: 18699
27
胡扯

【在 d******e 的大作中提到】
: 从大量的predictor重选出一小撮有用的来做prediction,即使是这样,在没有大量
: sample的情况下也是很难实现。
:
: 法也
: ,一

d******e
发帖数: 7844
28
一看就是不懂minimax的货。
四年前我就拍过你,现如今懒得再拍你了。
发信人: drburnie (专门爆料), 信区: Statistics
标 题: Re: 为什么申请统计要学过数学课?
发信站: BBS 未名空间站 (Sun Jan 3 22:37:55 2010, 美东)
行了,不打算回你帖子了,2到你这个程度,也没啥可说的了。

【在 l******r 的大作中提到】
: 胡扯
T*******I
发帖数: 5138
29
Mark this.
个人认为,大数据仍然是样本数据,依然具有随机性,只是描述的方法可能与传统的样
本相比会有些新的手段。A systematic sampling from the big data might be
possible to make thing simpler.
大数据的建立,有点类似于400年前的培根的基本哲学观点,他认为如果我们能把一个
类的全部个体收集完成了,然后对他们分门别类,就完成了关于这个类的全部认知工作。
事实证明,这样的做法是愚蠢的,因为,总体的容量通常可以被认为具有无限性,因此
,关于这个总体中全部个体的收集工作是不可能完成的。我们永远不可能实现对一个总
体的终极的完全确定性的认知,而是应该满足于通过对一个有限数量的随机样本的认知
获得关于总体的知识,因此,出错是难免的。

【在 p**5 的大作中提到】
: 有道理,生物千老说生物不好,但也有干的很好的
: 只要技术强,总没问题

R******d
发帖数: 1436
30
pls-da不就是干这个的么

【在 d******e 的大作中提到】
: 从大量的predictor重选出一小撮有用的来做prediction,即使是这样,在没有大量
: sample的情况下也是很难实现。
:
: 法也
: ,一

相关主题
predictors请教一个面试问题。
有没有做RISK MANAGEMENT的抓狂!为啥选出来的predictor都这么差
model和variables都sig.但每个category都不sigsample size vs. number of regressors
进入Statistics版参与讨论
l******r
发帖数: 18699
31
说真的,想拍我你真的不够格

【在 d******e 的大作中提到】
: 一看就是不懂minimax的货。
: 四年前我就拍过你,现如今懒得再拍你了。
: 发信人: drburnie (专门爆料), 信区: Statistics
: 标 题: Re: 为什么申请统计要学过数学课?
: 发信站: BBS 未名空间站 (Sun Jan 3 22:37:55 2010, 美东)
: 行了,不打算回你帖子了,2到你这个程度,也没啥可说的了。

g*****o
发帖数: 812
32
但是, 数据量大到一定程度, 比如淘宝, 那么即使不用抽样技术, 直接统计, 那也可以
得出很多有用的结果了

作。

【在 T*******I 的大作中提到】
: Mark this.
: 个人认为,大数据仍然是样本数据,依然具有随机性,只是描述的方法可能与传统的样
: 本相比会有些新的手段。A systematic sampling from the big data might be
: possible to make thing simpler.
: 大数据的建立,有点类似于400年前的培根的基本哲学观点,他认为如果我们能把一个
: 类的全部个体收集完成了,然后对他们分门别类,就完成了关于这个类的全部认知工作。
: 事实证明,这样的做法是愚蠢的,因为,总体的容量通常可以被认为具有无限性,因此
: ,关于这个总体中全部个体的收集工作是不可能完成的。我们永远不可能实现对一个总
: 体的终极的完全确定性的认知,而是应该满足于通过对一个有限数量的随机样本的认知
: 获得关于总体的知识,因此,出错是难免的。

T*******I
发帖数: 5138
33
不错,现行的统计方法有很多能直接用在大数据上,但问题是,这样得到的结果会因为
是大数据基础上因而具有足够的稳定性和可靠性吗?我想恐怕没人对此会有信心。
统计认知的目的不同于数学的逻辑推理,不是为了得到一个确定不变的定理性的结论。
所以,我们并不在乎基于样本基础上的结论如何的稳定和可靠。所有的统计结论都是容
错性的,仅供参考而已。
我们需要做的是如何在样本观察的基础上构造充分和必要的样本统计测量来完成估计。
无论是单变量样本还是多变量样本,系统抽样可以在大幅降低计算工作量的同时获得最
小化的统计计算误差。我们不必纠结于因为遗漏绝大部分可知样本而对结果惴惴不安。

【在 g*****o 的大作中提到】
: 但是, 数据量大到一定程度, 比如淘宝, 那么即使不用抽样技术, 直接统计, 那也可以
: 得出很多有用的结果了
:
: 作。

g*****o
发帖数: 812
34
大数定理啊,淘宝几亿用户
而且本身大数据并不难访问,只不过因为是分布式的,很多复杂一点的算法和统计方法
都用不了。
所以大数据面临的问题根本不是准不准,是现在还停留在中学统计水平上

【在 T*******I 的大作中提到】
: 不错,现行的统计方法有很多能直接用在大数据上,但问题是,这样得到的结果会因为
: 是大数据基础上因而具有足够的稳定性和可靠性吗?我想恐怕没人对此会有信心。
: 统计认知的目的不同于数学的逻辑推理,不是为了得到一个确定不变的定理性的结论。
: 所以,我们并不在乎基于样本基础上的结论如何的稳定和可靠。所有的统计结论都是容
: 错性的,仅供参考而已。
: 我们需要做的是如何在样本观察的基础上构造充分和必要的样本统计测量来完成估计。
: 无论是单变量样本还是多变量样本,系统抽样可以在大幅降低计算工作量的同时获得最
: 小化的统计计算误差。我们不必纠结于因为遗漏绝大部分可知样本而对结果惴惴不安。

D******n
发帖数: 2965
35
大数据带来的最大问题其实还不是在计算上的,计算上的问题再大也是小问题。
真正的问题是模型背后的理论。光fit data做预测本身是没有太大意义,而要理解预测
背后的理论机制才是根本。

【在 d******e 的大作中提到】
: 我理解的典型大数据问题有几种:
: A. Large Sample Size。这种的特点是数据的分布式存储,最大的难度主要还是计算。
: 分布式计算需要balance communication cost和computational efficinecy。
: B. High Dimension。Feature多到眼花缭乱,需要选出有用的。计算仍然是难点,同时
: 还有统计。问题其实还是Feature Selection and Extraction。这个在传统统计里也有
: ,不过High Dimension和Fixed Dimension的做法还是有非常大的不同的。所以说大数
: 据会让很多传统问题难度陡增。
: C. Modelling Flexibility。数据大了之后,我们需要用更复杂的model来刻画数据,
: 很多时候我们希望用一些简单nonparametric model,但如何确定model的复杂程度就成
: 了问题。

p********6
发帖数: 1339
36
MJ这篇报道说的很好,说出了很多统计学家担心的问题。
如果用挖金矿作比喻,传统数据分析就好像黄金开采,已经有了一套较成熟的产业链—
—勘探,开采,冶炼等等。现在突然有人发现,矿石中有除了金子还有一些有用的东西
,而这些东西我们以前没有收集起来。于是有人振臂一呼,说这些我们曾经丢弃的东西
价值不比金子低,我们要对矿石中所有的物质进行挖掘、分析和精炼,那我们能得到的
财富将是金子的千百倍。于是乎这个领域涌入和大量的梦想家,妄想家,投机者,骗子
,白痴。但是显然现实不会这么美好,这多出来的大数据,绝大部分是我们难以理解、
无法利用的,其最终结果往往是只能炼出一堆废渣。
现在的“大数据”,并不能算是一个统计概念,而更多的是一个计算机概念。计算机科
学对数据的定义很纯粹,数据多就代表数据大。但在统计里,数据往往是指“可分析的
数据”,“大”往往意味着信息丰富且可被认知。现在的大数据概念显然不是这样。
n*****n
发帖数: 3123
37
对于做high dimensional data,就是养家糊口。计算还要求差些,理论上没突破,啥
都没戏。这问题太难了。
o*s
发帖数: 623
38
真无聊。老是说大数据。干嘛不说模型呀。
T*****u
发帖数: 7103
39
大数据有过夏天吗?分明是一大群人在叫春。
f**5
发帖数: 361
40
的确是火过头了
1 (共1页)
进入Statistics版参与讨论
相关主题
用什么model来model proportion比较好?我用neural net做的model效果还不如logitstic regression
请教 model fit求教一个模型/预测问题
predictors新手请教logistic regression
有没有做RISK MANAGEMENT的multicollinearity和 predicion model
model和variables都sig.但每个category都不sigR classification tree model 请教
请教一个面试问题。model sample size重要吗?
抓狂!为啥选出来的predictor都这么差a risk modeling opening in my team
sample size vs. number of regressors一个最近才得到的一点经验
相关话题的讨论汇总
话题: 数据话题: data话题: 问题话题: 统计话题: dimension