加大伯克利分校著名科学家：大数据的“冬天”即将到来? (转载) - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 加大伯克利分校著名科学家：大数据的“冬天”即将到来? (转载)

相关主题
● model和variables都sig.但每个category都不sig	● R classification tree model 请教
● 请教一个面试问题。	● model sample size重要吗?
● 抓狂！为啥选出来的predictor都这么差	● a risk modeling opening in my team
● sample size vs. number of regressors	● 一个最近才得到的一点经验
● 我用neural net做的model效果还不如logitstic regression	● 算晕了！请教一个组合问题，包子谢。
● 求教一个模型/预测问题	● 面试问题求教(更新了啊)
● 新手请教logistic regression	● 请教一个相关性分析（correlation)的问题
● multicollinearity和 predicion model	● 用什么model来model proportion比较好？

相关话题的讨论汇总
话题: 数据话题: data话题: 问题话题: 统计话题: dimension

进入Statistics版参与讨论

(共1页)

p**5
发帖数: 2544

【以下文字转载自 DataSciences 讨论区】
发信人: pp65 (要坚强), 信区: DataSciences
标题: 加大伯克利分校著名科学家：大数据的“冬天”即将到来?
发信站: BBS 未名空间站 (Mon Jan 5 15:38:01 2015, 美东)
大家怎么看？
http://support.huawei.com/ecommunity/bbs/10240935.html

l******r
发帖数: 18699

冬天来了，春天还会远吗？

【在 p**5 的大作中提到】

: 【以下文字转载自 DataSciences 讨论区】
: 发信人: pp65 (要坚强), 信区: DataSciences
: 标题: 加大伯克利分校著名科学家：大数据的“冬天”即将到来?
: 发信站: BBS 未名空间站 (Mon Jan 5 15:38:01 2015, 美东)
: 大家怎么看？
: http://support.huawei.com/ecommunity/bbs/10240935.html

d*******1
发帖数: 854

就classification而言，用过多的predictor确实会导致overfitting, 但是解决办法也
简单，限制predictors的数量即可。同时，subject的样本数也提高了，想像一下，一
个两个样本数为500的样本的比较的区分，随即出现的分离是很难的

【在 p**5 的大作中提到】

w**p
发帖数: 4080

我觉得科学的自我调节能力是很强的。不至于刚刚热上就马上死掉。只不过肯定对DS们
的要求会越来越高。

p****u
发帖数: 2596

那可不一定，看看game of thrones，一个冬天上百年，人这辈子就没有拉

【在 l******r 的大作中提到】

: 冬天来了，春天还会远吗？

j****i
发帖数: 340

如果真有“冬天”和“泡沫”
那也是因为一大群完全不懂得大数据的人一拥而上的结果
冬天冻死一批投机者，剩下的才能迎来春天

p**5
发帖数: 2544

有道理，生物千老说生物不好，但也有干的很好的
只要技术强，总没问题

【在 j****i 的大作中提到】

: 如果真有“冬天”和“泡沫”
: 那也是因为一大群完全不懂得大数据的人一拥而上的结果
: 冬天冻死一批投机者，剩下的才能迎来春天

D******n
发帖数: 2836

check out the original post in English, it's more interesting especially MJ'
s response to the interview.

【在 p**5 的大作中提到】

: 有道理，生物千老说生物不好，但也有干的很好的
: 只要技术强，总没问题

K*****2
发帖数: 9308

too old

y**u
发帖数: 426

求英文链接

MJ'

【在 D******n 的大作中提到】

: check out the original post in English, it's more interesting especially MJ'
: s response to the interview.

相关主题
● 求教一个模型/预测问题	● R classification tree model 请教
● 新手请教logistic regression	● model sample size重要吗?
● multicollinearity和 predicion model	● a risk modeling opening in my team
进入Statistics版参与讨论

A****t
发帖数: 141

http://spectrum.ieee.org/robotics/artificial-intelligence/machi

【在 y**u 的大作中提到】

: 求英文链接
:
: MJ'

h***i
发帖数: 3844

换个思路
其实投机的都跑了。剩下的都被拍在沙滩上。
就是为了赚个paycheck，怎么可能会冻死

【在 j****i 的大作中提到】

: 如果真有“冬天”和“泡沫”
: 那也是因为一大群完全不懂得大数据的人一拥而上的结果
: 冬天冻死一批投机者，剩下的才能迎来春天

t****w
发帖数: 130

限制predictor的数量，那”小数据“就可以了，大数据还有什么意义呢？

【在 d*******1 的大作中提到】

: 就classification而言，用过多的predictor确实会导致overfitting, 但是解决办法也
: 简单，限制predictors的数量即可。同时，subject的样本数也提高了，想像一下，一
: 个两个样本数为500的样本的比较的区分，随即出现的分离是很难的

d******e
发帖数: 7844

这在胡说八道什么东西... ...

【在 d*******1 的大作中提到】

d******e
发帖数: 7844

从大量的predictor重选出一小撮有用的来做prediction，即使是这样，在没有大量
sample的情况下也是很难实现。

法也
，一

【在 t****w 的大作中提到】

: 限制predictor的数量，那”小数据“就可以了，大数据还有什么意义呢？

v*******e
发帖数: 11604

大数据便是大sample量，不是大predictor量。

【在 d******e 的大作中提到】

: 从大量的predictor重选出一小撮有用的来做prediction，即使是这样，在没有大量
: sample的情况下也是很难实现。
:
: 法也
: ，一

d******e
发帖数: 7844

这是你自己的解读，呵呵。

【在 v*******e 的大作中提到】

:
: 大数据便是大sample量，不是大predictor量。

s********0
发帖数: 2625

很好，这个帖子到了17楼就开始出现对“大数据”理解的分歧了，和现实一样，大家都
说大数据，真正交流起来，根本就是鸡同鸭讲。

h*p
发帖数: 1502

对的

【在 p**5 的大作中提到】

: 有道理，生物千老说生物不好，但也有干的很好的
: 只要技术强，总没问题

d******e
发帖数: 7844

毛啊，分明是很多大数据盲在那里张口大数据，闭口大数据。

【在 s********0 的大作中提到】

: 很好，这个帖子到了17楼就开始出现对“大数据”理解的分歧了，和现实一样，大家都
: 说大数据，真正交流起来，根本就是鸡同鸭讲。

相关主题
● 一个最近才得到的一点经验	● 请教一个相关性分析（correlation)的问题
● 算晕了！请教一个组合问题，包子谢。	● 用什么model来model proportion比较好？
● 面试问题求教(更新了啊)	● 请教 model fit
进入Statistics版参与讨论

j*********j
发帖数: 124

非常同意，大家在评论之前，先把什么是大数据搞清楚吧，不要光看字面意思。。。“
大数据”的意思不只是数量上的大吧。。。

【在 s********0 的大作中提到】

: 很好，这个帖子到了17楼就开始出现对“大数据”理解的分歧了，和现实一样，大家都
: 说大数据，真正交流起来，根本就是鸡同鸭讲。

c***z
发帖数: 6348

个人处理的大数据（其实也不算大），主要问题是 unstructured（数据不能直接当
feature用），dirty（没有truthfully labeled data）然后就是没有clearly defined
business problem

d******e
发帖数: 7844

我理解的典型大数据问题有几种：
A. Large Sample Size。这种的特点是数据的分布式存储，最大的难度主要还是计算。
分布式计算需要balance communication cost和computational efficinecy。
B. High Dimension。Feature多到眼花缭乱，需要选出有用的。计算仍然是难点，同时
还有统计。问题其实还是Feature Selection and Extraction。这个在传统统计里也有
，不过High Dimension和Fixed Dimension的做法还是有非常大的不同的。所以说大数
据会让很多传统问题难度陡增。
C. Modelling Flexibility。数据大了之后，我们需要用更复杂的model来刻画数据，
很多时候我们希望用一些简单nonparametric model，但如何确定model的复杂程度就成
了问题。
大数据经常是上面3种问题混合出现的。但其实最核心的问题还是计算太难了，而且单
机不光算不动，而且装不下。

defined

【在 c***z 的大作中提到】

: 个人处理的大数据（其实也不算大），主要问题是 unstructured（数据不能直接当
: feature用），dirty（没有truthfully labeled data）然后就是没有clearly defined
: business problem

a***g
发帖数: 2761

还有一个条就是越耒越多的动态数据
很多数据都是stream得来的
再不是一个静态的database要去搞了
这也是最近几年在计算和分析都要面对的问题

【在 d******e 的大作中提到】

: 我理解的典型大数据问题有几种：
: A. Large Sample Size。这种的特点是数据的分布式存储，最大的难度主要还是计算。
: 分布式计算需要balance communication cost和computational efficinecy。
: B. High Dimension。Feature多到眼花缭乱，需要选出有用的。计算仍然是难点，同时
: 还有统计。问题其实还是Feature Selection and Extraction。这个在传统统计里也有
: ，不过High Dimension和Fixed Dimension的做法还是有非常大的不同的。所以说大数
: 据会让很多传统问题难度陡增。
: C. Modelling Flexibility。数据大了之后，我们需要用更复杂的model来刻画数据，
: 很多时候我们希望用一些简单nonparametric model，但如何确定model的复杂程度就成
: 了问题。

D******n
发帖数: 2836

sample down?
handpicked by some domain experts. This is very applicable for some
traditional industry/business.
if B is reduced to fixed and small dimension, this is not such a problem and
a 90% good model maybe is good
enough
After all
"Big Data needs advanced analytics, (most) analytics does not need big data"

【在 d******e 的大作中提到】

d******e
发帖数: 7844

算。
的分布式计算系统硬算。
同时
也有
大数
谱。
据，
就成
and
data"
~~~~后者根本不是我说的point。

【在 D******n 的大作中提到】

:
: sample down?
: handpicked by some domain experts. This is very applicable for some
: traditional industry/business.
: if B is reduced to fixed and small dimension, this is not such a problem and
: a 90% good model maybe is good
: enough
: After all
: "Big Data needs advanced analytics, (most) analytics does not need big data"

l******r
发帖数: 18699

胡扯

【在 d******e 的大作中提到】

: 从大量的predictor重选出一小撮有用的来做prediction，即使是这样，在没有大量
: sample的情况下也是很难实现。
:
: 法也
: ，一

d******e
发帖数: 7844

一看就是不懂minimax的货。
四年前我就拍过你，现如今懒得再拍你了。
发信人: drburnie (专门爆料), 信区: Statistics
标题: Re: 为什么申请统计要学过数学课？
发信站: BBS 未名空间站 (Sun Jan 3 22:37:55 2010, 美东)
行了，不打算回你帖子了，2到你这个程度，也没啥可说的了。

【在 l******r 的大作中提到】

: 胡扯

T*******I
发帖数: 5138

Mark this.
个人认为，大数据仍然是样本数据，依然具有随机性，只是描述的方法可能与传统的样
本相比会有些新的手段。A systematic sampling from the big data might be
possible to make thing simpler.
大数据的建立，有点类似于400年前的培根的基本哲学观点，他认为如果我们能把一个
类的全部个体收集完成了，然后对他们分门别类，就完成了关于这个类的全部认知工作。
事实证明，这样的做法是愚蠢的，因为，总体的容量通常可以被认为具有无限性，因此
，关于这个总体中全部个体的收集工作是不可能完成的。我们永远不可能实现对一个总
体的终极的完全确定性的认知，而是应该满足于通过对一个有限数量的随机样本的认知
获得关于总体的知识，因此，出错是难免的。

【在 p**5 的大作中提到】

: 有道理，生物千老说生物不好，但也有干的很好的
: 只要技术强，总没问题

R******d
发帖数: 1436

pls-da不就是干这个的么

【在 d******e 的大作中提到】

: 从大量的predictor重选出一小撮有用的来做prediction，即使是这样，在没有大量
: sample的情况下也是很难实现。
:
: 法也
: ，一

相关主题
● predictors	● 请教一个面试问题。
● 有没有做RISK MANAGEMENT的	● 抓狂！为啥选出来的predictor都这么差
● model和variables都sig.但每个category都不sig	● sample size vs. number of regressors
进入Statistics版参与讨论

l******r
发帖数: 18699

说真的，想拍我你真的不够格

【在 d******e 的大作中提到】

: 一看就是不懂minimax的货。
: 四年前我就拍过你，现如今懒得再拍你了。
: 发信人: drburnie (专门爆料), 信区: Statistics
: 标题: Re: 为什么申请统计要学过数学课？
: 发信站: BBS 未名空间站 (Sun Jan 3 22:37:55 2010, 美东)
: 行了，不打算回你帖子了，2到你这个程度，也没啥可说的了。

g*****o
发帖数: 812

但是, 数据量大到一定程度, 比如淘宝, 那么即使不用抽样技术, 直接统计, 那也可以
得出很多有用的结果了

作。

【在 T*******I 的大作中提到】

: Mark this.
: 个人认为，大数据仍然是样本数据，依然具有随机性，只是描述的方法可能与传统的样
: 本相比会有些新的手段。A systematic sampling from the big data might be
: possible to make thing simpler.
: 大数据的建立，有点类似于400年前的培根的基本哲学观点，他认为如果我们能把一个
: 类的全部个体收集完成了，然后对他们分门别类，就完成了关于这个类的全部认知工作。
: 事实证明，这样的做法是愚蠢的，因为，总体的容量通常可以被认为具有无限性，因此
: ，关于这个总体中全部个体的收集工作是不可能完成的。我们永远不可能实现对一个总
: 体的终极的完全确定性的认知，而是应该满足于通过对一个有限数量的随机样本的认知
: 获得关于总体的知识，因此，出错是难免的。

T*******I
发帖数: 5138

不错，现行的统计方法有很多能直接用在大数据上，但问题是，这样得到的结果会因为
是大数据基础上因而具有足够的稳定性和可靠性吗？我想恐怕没人对此会有信心。
统计认知的目的不同于数学的逻辑推理，不是为了得到一个确定不变的定理性的结论。
所以，我们并不在乎基于样本基础上的结论如何的稳定和可靠。所有的统计结论都是容
错性的，仅供参考而已。
我们需要做的是如何在样本观察的基础上构造充分和必要的样本统计测量来完成估计。
无论是单变量样本还是多变量样本，系统抽样可以在大幅降低计算工作量的同时获得最
小化的统计计算误差。我们不必纠结于因为遗漏绝大部分可知样本而对结果惴惴不安。

【在 g*****o 的大作中提到】

: 但是, 数据量大到一定程度, 比如淘宝, 那么即使不用抽样技术, 直接统计, 那也可以
: 得出很多有用的结果了
:
: 作。

g*****o
发帖数: 812

大数定理啊，淘宝几亿用户
而且本身大数据并不难访问，只不过因为是分布式的，很多复杂一点的算法和统计方法
都用不了。
所以大数据面临的问题根本不是准不准，是现在还停留在中学统计水平上

【在 T*******I 的大作中提到】

: 不错，现行的统计方法有很多能直接用在大数据上，但问题是，这样得到的结果会因为
: 是大数据基础上因而具有足够的稳定性和可靠性吗？我想恐怕没人对此会有信心。
: 统计认知的目的不同于数学的逻辑推理，不是为了得到一个确定不变的定理性的结论。
: 所以，我们并不在乎基于样本基础上的结论如何的稳定和可靠。所有的统计结论都是容
: 错性的，仅供参考而已。
: 我们需要做的是如何在样本观察的基础上构造充分和必要的样本统计测量来完成估计。
: 无论是单变量样本还是多变量样本，系统抽样可以在大幅降低计算工作量的同时获得最
: 小化的统计计算误差。我们不必纠结于因为遗漏绝大部分可知样本而对结果惴惴不安。

D******n
发帖数: 2965

大数据带来的最大问题其实还不是在计算上的，计算上的问题再大也是小问题。
真正的问题是模型背后的理论。光fit data做预测本身是没有太大意义，而要理解预测
背后的理论机制才是根本。

【在 d******e 的大作中提到】

p********6
发帖数: 1339

MJ这篇报道说的很好，说出了很多统计学家担心的问题。
如果用挖金矿作比喻，传统数据分析就好像黄金开采，已经有了一套较成熟的产业链—
—勘探，开采，冶炼等等。现在突然有人发现，矿石中有除了金子还有一些有用的东西
，而这些东西我们以前没有收集起来。于是有人振臂一呼，说这些我们曾经丢弃的东西
价值不比金子低，我们要对矿石中所有的物质进行挖掘、分析和精炼，那我们能得到的
财富将是金子的千百倍。于是乎这个领域涌入和大量的梦想家，妄想家，投机者，骗子
，白痴。但是显然现实不会这么美好，这多出来的大数据，绝大部分是我们难以理解、
无法利用的，其最终结果往往是只能炼出一堆废渣。
现在的“大数据”，并不能算是一个统计概念，而更多的是一个计算机概念。计算机科
学对数据的定义很纯粹，数据多就代表数据大。但在统计里，数据往往是指“可分析的
数据”，“大”往往意味着信息丰富且可被认知。现在的大数据概念显然不是这样。

n*****n
发帖数: 3123

对于做high dimensional data，就是养家糊口。计算还要求差些，理论上没突破，啥
都没戏。这问题太难了。

o*s
发帖数: 623

真无聊。老是说大数据。干嘛不说模型呀。

T*****u
发帖数: 7103

大数据有过夏天吗？分明是一大群人在叫春。

f**5
发帖数: 361

的确是火过头了

(共1页)

进入Statistics版参与讨论

相关主题
● 用什么model来model proportion比较好？	● 我用neural net做的model效果还不如logitstic regression
● 请教 model fit	● 求教一个模型/预测问题
● predictors	● 新手请教logistic regression
● 有没有做RISK MANAGEMENT的	● multicollinearity和 predicion model
● model和variables都sig.但每个category都不sig	● R classification tree model 请教
● 请教一个面试问题。	● model sample size重要吗?
● 抓狂！为啥选出来的predictor都这么差	● a risk modeling opening in my team
● sample size vs. number of regressors	● 一个最近才得到的一点经验

相关话题的讨论汇总
话题: 数据话题: data话题: 问题话题: 统计话题: dimension

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天