由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
CS版 - 学术界做mapreduce基本上是扯淡
相关主题
求教! how to run python programs on a hadoop cluster有什么论文讨论过字符串匹配的索引结构?
大概多大规模的数据处理有必要用到hadoop?请教:Map reduce到底是什么啊 (转载)
sigmod09挂了cloud
Sigmod09 reviewers really suck搜索的核心技术, 李彦宏和GOOGLE的LARRY谁是先行者? (转载)
help with a paper? (转载)问个数据库的问题。
估计Papadimitriou再熬几年就turing award了请教博士题目
《数据库系统基础 (第6版)》文字版[PDF]请教关于大数据的问题
从曙光十年的发展看自主创新云有没有可能代替超级计算机进行科学计算?
相关话题的讨论汇总
话题: mapreduce话题: sql话题: 学术界话题: 穷算话题: mike
进入CS版参与讨论
1 (共1页)
w***g
发帖数: 5958
1
教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
,就是学术界做MapReduce的大部分都是扯淡。
上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的

然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
分布式数据库系统则一直是阳春白雪无人问津。
为什么?
一个显然的原因是大部分实验室和小公司都无法承受得起高价的分布式数据库系统。对
于他们来说,Hadoop是第一个可用的机群处理平台(MPI只能并行化计算,没法存数据)
。数据库理论再好,大家用不起那也是白搭。但是还有一个重要原因很多人都没有看到
。也是这个原因使得很多研究者发表的论文必然会受到工业界背后的嘲笑。
我说的这个原因就是scale。Mike在SIGMOD09上发表的论文实在100个节点的cluster上测
得性能。在这样小的scale上面根本就看不出MapReduce的威力。是的,MapReduce是穷算
,但是它的吞吐量基本是线性的。只要你数据规模足够大,1000台机器所能提供的性能
即使没有100台的10倍,也能达到个三五倍。但是B+树或者别的索引结构随着scale增大
,实现的复杂度和额外开销是急剧增加的。当有成千上万台机器的时候,甚至要维护数
据的一致性和结果的正确性都难。如果在1000个节点,甚至10000个节点的规模上再对几
种方法进行评测,结果可能会完全不一样。(当然,Hadoop跟真正Google MapReduce的差
距也不应小觑。)
现在MapReduce火了,学术界就有N多人开始改吧Hadoop,paper开始如流水般的就出来了
。但是很少有实验室能够花销得起1000个节点的cluster进行评测。你拿百十个节点测出
来的数据根本就没有说服力。对于一个大规模的机群,想要正确稳定高效地实现一个no
n-trivial的算法,即使不是不可能,也必然需要花费大量的时间。其实大家都知道SQL
和索引好,但是如果Google想在他们的机群上实现SQL和索引,可能需要5年甚至更长的
时间。他们等得起吗?事实是,MapReduce一出来,Google的production system在两年
之内就用上了这个系统。在这一点上,学术界和工业界虽然都在说MapReduce,但是他们
做的是不同的东西,面对的是不同的约束,基本上是鸡同鸭讲。
最后我想说的是,人类对大规模数据处理的研究才刚刚起步。MapReduce只是一个极其原
始的手段。微软搞的那个东西比MapReduce好点,但也好不了多少。随着计算机科学和工
程量方面的发展以及时间的推移,我们还是能期望出现在更大规模上实现SQL或者对应的
功能的。这期间,学术界需要解决一个重要的现实问题,就是如何集中资源搭建一个用
于研究的大规模试验平台。规模上不去,系统研究基本上就变成扯淡了。
这版上人气太小,鬼都要出来了。我多过来吹吹牛,大家轻拍。
X*****r
发帖数: 2521
2
很好
赞一个

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

g*****g
发帖数: 34805
3
你这个也是扯谈,EC2是可以按小时租机器的。很多公司都每天花几个小时租几百上千个
节点做一些数据处理。租赁成本是不低,但对于学术界来说,省着用还是可以租得起的。

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

d******e
发帖数: 7844
4
像点样的计算机系都有自己的cluster,少的几百,多的几千。学术圈里做的基本还是
toy data,真正相对于工业界还不是一个概念,有几十上百个能做个大概的实验就行了。

千个
的。

【在 g*****g 的大作中提到】
: 你这个也是扯谈,EC2是可以按小时租机器的。很多公司都每天花几个小时租几百上千个
: 节点做一些数据处理。租赁成本是不低,但对于学术界来说,省着用还是可以租得起的。
:
: 一点
: 。而

g*****g
发帖数: 34805
5
我的意思是,你在一个很小的cluster上做proof of concept,
测试修改得差不多了。花钱在EC2上数据量跑验证,一年花个几万几十万
足够了。是个项目就能拿到这个funding。学术的东西,又不用24*7。

了。

【在 d******e 的大作中提到】
: 像点样的计算机系都有自己的cluster,少的几百,多的几千。学术圈里做的基本还是
: toy data,真正相对于工业界还不是一个概念,有几十上百个能做个大概的实验就行了。
:
: 千个
: 的。

R*******n
发帖数: 162
6
何止是mapreduce。 你看看这10年来计算机界里出现的东西, 有哪些是学术界提出来
的?特别是系统方面的。
每次看学术界里讨论 mapreduce, search, social network 的文章, 那是幼稚得不行
呀。没data, 没机器,只能扯淡。
N**D
发帖数: 10322
7
关键是data, 学校根本没有公司那么大的data

【在 R*******n 的大作中提到】
: 何止是mapreduce。 你看看这10年来计算机界里出现的东西, 有哪些是学术界提出来
: 的?特别是系统方面的。
: 每次看学术界里讨论 mapreduce, search, social network 的文章, 那是幼稚得不行
: 呀。没data, 没机器,只能扯淡。

m****o
发帖数: 182
8
学术界做mapreduce的意义还在于对复杂算法的线性化转换。对于一个十几万维,几百
万行的矩阵算支持向量机,如果用的是非线性kernel,那计算时间在单机上可以耗时两
周之久。这时候就显得如果可以近似做mapreduce有多么重要。当然这个例子可能不太
好,有经验的可能一看就知道矩阵很有可能是稀疏矩阵,一般线性kernel就可以了。
s****t
发帖数: 698
9

一点
。而
CS的学术界和工业界不是一直有这样的问题吗?
你举的只是一个例子而已。

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

s****t
发帖数: 698
10

我看倒不是data的问题,
而是学校和公司的使命有根本的不同。

【在 N**D 的大作中提到】
: 关键是data, 学校根本没有公司那么大的data
相关主题
估计Papadimitriou再熬几年就turing award了有什么论文讨论过字符串匹配的索引结构?
《数据库系统基础 (第6版)》文字版[PDF]请教:Map reduce到底是什么啊 (转载)
从曙光十年的发展看自主创新cloud
进入CS版参与讨论
M**u
发帖数: 10158
11
agree

一点
。而
上测
穷算
对几
的差
来了
测出
no
SQL
他们
其原
和工
应的

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

j******g
发帖数: 436
12
nod,PHD一个月付千把刀,发的paper都是一个个系统。毕业后去是一个team的phd做个
东西。这怎么比啊?学术界的好处就是都会发表出来,如果要做什么新东西,多少能有
些可以参考的。

【在 s****t 的大作中提到】
:
: 我看倒不是data的问题,
: 而是学校和公司的使命有根本的不同。

d******p
发帖数: 335
13
写的不错。不过学术界也是有做的不错的,比如cmu的那个组,实验数据用的是yahoo的
网页数据petabyte scale,机器是yahoo的cluster,好像是世界top 100之一。不过他
们有的文章感觉有些水,估计实用起来效果一般。

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

t***m
发帖数: 358
14
什么神奇的机器和svm training 算法可以两个星期就搞定这种数据?还有你的数据是
sparse的吗?

【在 m****o 的大作中提到】
: 学术界做mapreduce的意义还在于对复杂算法的线性化转换。对于一个十几万维,几百
: 万行的矩阵算支持向量机,如果用的是非线性kernel,那计算时间在单机上可以耗时两
: 周之久。这时候就显得如果可以近似做mapreduce有多么重要。当然这个例子可能不太
: 好,有经验的可能一看就知道矩阵很有可能是稀疏矩阵,一般线性kernel就可以了。

d******e
发帖数: 7844
15
不知道他是瞎忽悠还是做过,几百万x几百万的kernel放到内存里要上万G的内存。
即使单机使用了随机算法,输出的结果也非常不可靠。
而且,训练出来的模型也不实用,来一个测试样本要先计算几百万个内积,就是扯淡

【在 t***m 的大作中提到】
: 什么神奇的机器和svm training 算法可以两个星期就搞定这种数据?还有你的数据是
: sparse的吗?

N**D
发帖数: 10322
16
说说哪个算法会把整个kernel matrix 放到内存里

【在 d******e 的大作中提到】
: 不知道他是瞎忽悠还是做过,几百万x几百万的kernel放到内存里要上万G的内存。
: 即使单机使用了随机算法,输出的结果也非常不可靠。
: 而且,训练出来的模型也不实用,来一个测试样本要先计算几百万个内积,就是扯淡

N**D
发帖数: 10322
17
It is doable

【在 t***m 的大作中提到】
: 什么神奇的机器和svm training 算法可以两个星期就搞定这种数据?还有你的数据是
: sparse的吗?

d******e
发帖数: 7844
18
我没说一定要放到内存里,我也说可以用随机算法了,但这个实现并不可靠,也并不实
用。

【在 N**D 的大作中提到】
: 说说哪个算法会把整个kernel matrix 放到内存里
p*********a
发帖数: 61
19
你对于 db vs. mp 的比较,概念都是错误的
data 都是 partition 的,每个 partition 有自己的 btree
scale 大了,仅仅是 partition 的数量增多,每个 btree 影响不大。
什么“数据一致性和结果正确性无法保证”,不知所云。
举个“无法保证”的 use case 出来?
distributed db 在 scale 有困难,是因为机器多了以后,failure 的概率很高
设计上并没有相应的机制,所以任何一台机器 failure 发生以后,
整个任务从头开始。failure rate 高了,一个任务老要重启。
mp 引入了 check point 的机制,每步运算结果全都存到磁盘上,failure
之后从中间算。所以每个任务不用重启,只需重复出错机器上一步的计算
因为每步都要 check point,写磁盘,这也是为什么 mp 在同样 scale 下,
相同的任务比 db 要慢很多 (如果不考虑 failure)

一点
。而
上测
穷算
对几
的差
来了
测出
no
SQL
他们
其原
和工
应的

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

N**D
发帖数: 10322
20
you have no idea what you are saying

【在 d******e 的大作中提到】
: 我没说一定要放到内存里,我也说可以用随机算法了,但这个实现并不可靠,也并不实
: 用。

相关主题
搜索的核心技术, 李彦宏和GOOGLE的LARRY谁是先行者? (转载)请教关于大数据的问题
问个数据库的问题。云有没有可能代替超级计算机进行科学计算?
请教博士题目感觉云计算其实是伪科学
进入CS版参与讨论
w***s
发帖数: 424
21
RE!

【在 s****t 的大作中提到】
:
: 我看倒不是data的问题,
: 而是学校和公司的使命有根本的不同。

r********3
发帖数: 2998
22
这个还好。做system的很多lab现在也有自己的cluster,还是不小的集群。
你要是去看看那些做什么data mining, machine learning。特别是学统计,学数学的
人做的东西,基本上都是toy,根本放不到任何一个实际数据里面用。最夸张的是,看
到的很多实验仅仅用几十行matlab的script,在笔记本电脑上跑几百个数据点的结果。

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

N**D
发帖数: 10322
23
跑几百个点的是统计的
data mining搞的数据要稍微大一点

【在 r********3 的大作中提到】
: 这个还好。做system的很多lab现在也有自己的cluster,还是不小的集群。
: 你要是去看看那些做什么data mining, machine learning。特别是学统计,学数学的
: 人做的东西,基本上都是toy,根本放不到任何一个实际数据里面用。最夸张的是,看
: 到的很多实验仅仅用几十行matlab的script,在笔记本电脑上跑几百个数据点的结果。
:
: 一点
: 。而

s***n
发帖数: 459
24
Re
a*******m
发帖数: 626
25
工业界做分布式数据库的不要太多,特别是互联网公司,五年前就有很多在做了。

教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
,就是学术界做MapReduce的大部分都是扯淡。
上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的

然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
分布式数据库系统则一直是阳春白雪无人问津。
为什么?
一个显然的原因是大部分实验室和小公司都无法承受得起高价的分布式数据库系统。对
于他们来说,Hadoop是第一个可用的机群处理平台(MPI只能并行化计算,没法存数据)
。数据库理论再好,大家用不起那也是白搭。但是还有一个重要原因很多人都没有看到
。也是这个原因使得很多研究者发表的论文必然会受到工业界背后的嘲笑。
我说的这个原因就是scale。Mike在SIGMOD09上发表的论文实在100个节点的cluster上测
得性能。在这样小的scale上面根本就看不出MapReduce的威力。是的,MapReduce是穷算
,但是它的吞吐量基本是线性的。只要你数据规模足够大,1000台机器所能提供的性能
即使没有100台的10倍,也能达到个三五倍。但是B+树或者别的索引结构随着scale增大
,实现的复杂度和额外开销是急剧增加的。当有成千上万台机器的时候,甚至要维护数
据的一致性和结果的正确性都难。如果在1000个节点,甚至10000个节点的规模上再对几
种方法进行评测,结果可能会完全不一样。(当然,Hadoop跟真正Google MapReduce的差
距也不应小觑。)
现在MapReduce火了,学术界就有N多人开始改吧Hadoop,paper开始如流水般的就出来了
。但是很少有实验室能够花销得起1000个节点的cluster进行评测。你拿百十个节点测出
来的数据根本就没有说服力。对于一个大规模的机群,想要正确稳定高效地实现一个no
n-trivial的算法,即使不是不可能,也必然需要花费大量的时间。其实大家都知道SQL
和索引好,但是如果Google想在他们的机群上实现SQL和索引,可能需要5年甚至更长的
时间。他们等得起吗?事实是,MapReduce一出来,Google的production system在两年
之内就用上了这个系统。在这一点上,学术界和工业界虽然都在说MapReduce,但是他们
做的是不同的东西,面对的是不同的约束,基本上是鸡同鸭讲。
最后我想说的是,人类对大规模数据处理的研究才刚刚起步。MapReduce只是一个极其原
始的手段。微软搞的那个东西比MapReduce好点,但也好不了多少。随着计算机科学和工
程量方面的发展以及时间的推移,我们还是能期望出现在更大规模上实现SQL或者对应的
功能的。这期间,学术界需要解决一个重要的现实问题,就是如何集中资源搭建一个用
于研究的大规模试验平台。规模上不去,系统研究基本上就变成扯淡了。
这版上人气太小,鬼都要出来了。我多过来吹吹牛,大家轻拍。

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

M**u
发帖数: 10158
26
nosql database一直都很热

一点
。而
上测
穷算
对几
的差
来了
测出
no
SQL
他们
其原
和工
应的

【在 a*******m 的大作中提到】
: 工业界做分布式数据库的不要太多,特别是互联网公司,五年前就有很多在做了。
:
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而

s****t
发帖数: 698
27


前一阵子才看到的这个,nosql,
谁给大致说说是啥呗?赫赫,懒得googl了

【在 M**u 的大作中提到】
: nosql database一直都很热
:
: 一点
: 。而
: 上测
: 穷算
: 对几
: 的差
: 来了
: 测出

N**D
发帖数: 10322
28
buzz words

【在 s****t 的大作中提到】
:
:
: 前一阵子才看到的这个,nosql,
: 谁给大致说说是啥呗?赫赫,懒得googl了

P****a
发帖数: 864
29
support

【在 N**D 的大作中提到】
: It is doable
P****a
发帖数: 864
30
为什么不可靠呢?为什么不实用呢

【在 d******e 的大作中提到】
: 我没说一定要放到内存里,我也说可以用随机算法了,但这个实现并不可靠,也并不实
: 用。

相关主题
有人了解 google 的 regular expression search 是怎么实现的吗大概多大规模的数据处理有必要用到hadoop?
构建并行计算环境求助sigmod09挂了
求教! how to run python programs on a hadoop clusterSigmod09 reviewers really suck
进入CS版参与讨论
w***g
发帖数: 50
31
确实是这样,云计算都是学术界跟在工业界屁股后面混饭吃

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

a*********g
发帖数: 8087
32
人类对大规模数据处理的研究才刚刚起步。
====
同意这个
w***g
发帖数: 5958
33
教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
,就是学术界做MapReduce的大部分都是扯淡。
上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的

然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
分布式数据库系统则一直是阳春白雪无人问津。
为什么?
一个显然的原因是大部分实验室和小公司都无法承受得起高价的分布式数据库系统。对
于他们来说,Hadoop是第一个可用的机群处理平台(MPI只能并行化计算,没法存数据)
。数据库理论再好,大家用不起那也是白搭。但是还有一个重要原因很多人都没有看到
。也是这个原因使得很多研究者发表的论文必然会受到工业界背后的嘲笑。
我说的这个原因就是scale。Mike在SIGMOD09上发表的论文实在100个节点的cluster上测
得性能。在这样小的scale上面根本就看不出MapReduce的威力。是的,MapReduce是穷算
,但是它的吞吐量基本是线性的。只要你数据规模足够大,1000台机器所能提供的性能
即使没有100台的10倍,也能达到个三五倍。但是B+树或者别的索引结构随着scale增大
,实现的复杂度和额外开销是急剧增加的。当有成千上万台机器的时候,甚至要维护数
据的一致性和结果的正确性都难。如果在1000个节点,甚至10000个节点的规模上再对几
种方法进行评测,结果可能会完全不一样。(当然,Hadoop跟真正Google MapReduce的差
距也不应小觑。)
现在MapReduce火了,学术界就有N多人开始改吧Hadoop,paper开始如流水般的就出来了
。但是很少有实验室能够花销得起1000个节点的cluster进行评测。你拿百十个节点测出
来的数据根本就没有说服力。对于一个大规模的机群,想要正确稳定高效地实现一个no
n-trivial的算法,即使不是不可能,也必然需要花费大量的时间。其实大家都知道SQL
和索引好,但是如果Google想在他们的机群上实现SQL和索引,可能需要5年甚至更长的
时间。他们等得起吗?事实是,MapReduce一出来,Google的production system在两年
之内就用上了这个系统。在这一点上,学术界和工业界虽然都在说MapReduce,但是他们
做的是不同的东西,面对的是不同的约束,基本上是鸡同鸭讲。
最后我想说的是,人类对大规模数据处理的研究才刚刚起步。MapReduce只是一个极其原
始的手段。微软搞的那个东西比MapReduce好点,但也好不了多少。随着计算机科学和工
程量方面的发展以及时间的推移,我们还是能期望出现在更大规模上实现SQL或者对应的
功能的。这期间,学术界需要解决一个重要的现实问题,就是如何集中资源搭建一个用
于研究的大规模试验平台。规模上不去,系统研究基本上就变成扯淡了。
这版上人气太小,鬼都要出来了。我多过来吹吹牛,大家轻拍。
X*****r
发帖数: 2521
34
很好
赞一个

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

g*****g
发帖数: 34805
35
你这个也是扯谈,EC2是可以按小时租机器的。很多公司都每天花几个小时租几百上千个
节点做一些数据处理。租赁成本是不低,但对于学术界来说,省着用还是可以租得起的。

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

d******e
发帖数: 7844
36
像点样的计算机系都有自己的cluster,少的几百,多的几千。学术圈里做的基本还是
toy data,真正相对于工业界还不是一个概念,有几十上百个能做个大概的实验就行了。

千个
的。

【在 g*****g 的大作中提到】
: 你这个也是扯谈,EC2是可以按小时租机器的。很多公司都每天花几个小时租几百上千个
: 节点做一些数据处理。租赁成本是不低,但对于学术界来说,省着用还是可以租得起的。
:
: 一点
: 。而

g*****g
发帖数: 34805
37
我的意思是,你在一个很小的cluster上做proof of concept,
测试修改得差不多了。花钱在EC2上数据量跑验证,一年花个几万几十万
足够了。是个项目就能拿到这个funding。学术的东西,又不用24*7。

了。

【在 d******e 的大作中提到】
: 像点样的计算机系都有自己的cluster,少的几百,多的几千。学术圈里做的基本还是
: toy data,真正相对于工业界还不是一个概念,有几十上百个能做个大概的实验就行了。
:
: 千个
: 的。

R*******n
发帖数: 162
38
何止是mapreduce。 你看看这10年来计算机界里出现的东西, 有哪些是学术界提出来
的?特别是系统方面的。
每次看学术界里讨论 mapreduce, search, social network 的文章, 那是幼稚得不行
呀。没data, 没机器,只能扯淡。
N**D
发帖数: 10322
39
关键是data, 学校根本没有公司那么大的data

【在 R*******n 的大作中提到】
: 何止是mapreduce。 你看看这10年来计算机界里出现的东西, 有哪些是学术界提出来
: 的?特别是系统方面的。
: 每次看学术界里讨论 mapreduce, search, social network 的文章, 那是幼稚得不行
: 呀。没data, 没机器,只能扯淡。

m****o
发帖数: 182
40
学术界做mapreduce的意义还在于对复杂算法的线性化转换。对于一个十几万维,几百
万行的矩阵算支持向量机,如果用的是非线性kernel,那计算时间在单机上可以耗时两
周之久。这时候就显得如果可以近似做mapreduce有多么重要。当然这个例子可能不太
好,有经验的可能一看就知道矩阵很有可能是稀疏矩阵,一般线性kernel就可以了。
相关主题
Sigmod09 reviewers really suck《数据库系统基础 (第6版)》文字版[PDF]
help with a paper? (转载)从曙光十年的发展看自主创新
估计Papadimitriou再熬几年就turing award了有什么论文讨论过字符串匹配的索引结构?
进入CS版参与讨论
s****t
发帖数: 698
41

一点
。而
CS的学术界和工业界不是一直有这样的问题吗?
你举的只是一个例子而已。

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

s****t
发帖数: 698
42

我看倒不是data的问题,
而是学校和公司的使命有根本的不同。

【在 N**D 的大作中提到】
: 关键是data, 学校根本没有公司那么大的data
M**u
发帖数: 10158
43
agree

一点
。而
上测
穷算
对几
的差
来了
测出
no
SQL
他们
其原
和工
应的

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

j******g
发帖数: 436
44
nod,PHD一个月付千把刀,发的paper都是一个个系统。毕业后去是一个team的phd做个
东西。这怎么比啊?学术界的好处就是都会发表出来,如果要做什么新东西,多少能有
些可以参考的。

【在 s****t 的大作中提到】
:
: 我看倒不是data的问题,
: 而是学校和公司的使命有根本的不同。

d******p
发帖数: 335
45
写的不错。不过学术界也是有做的不错的,比如cmu的那个组,实验数据用的是yahoo的
网页数据petabyte scale,机器是yahoo的cluster,好像是世界top 100之一。不过他
们有的文章感觉有些水,估计实用起来效果一般。

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

t***m
发帖数: 358
46
什么神奇的机器和svm training 算法可以两个星期就搞定这种数据?还有你的数据是
sparse的吗?

【在 m****o 的大作中提到】
: 学术界做mapreduce的意义还在于对复杂算法的线性化转换。对于一个十几万维,几百
: 万行的矩阵算支持向量机,如果用的是非线性kernel,那计算时间在单机上可以耗时两
: 周之久。这时候就显得如果可以近似做mapreduce有多么重要。当然这个例子可能不太
: 好,有经验的可能一看就知道矩阵很有可能是稀疏矩阵,一般线性kernel就可以了。

d******e
发帖数: 7844
47
不知道他是瞎忽悠还是做过,几百万x几百万的kernel放到内存里要上万G的内存。
即使单机使用了随机算法,输出的结果也非常不可靠。
而且,训练出来的模型也不实用,来一个测试样本要先计算几百万个内积,就是扯淡

【在 t***m 的大作中提到】
: 什么神奇的机器和svm training 算法可以两个星期就搞定这种数据?还有你的数据是
: sparse的吗?

N**D
发帖数: 10322
48
说说哪个算法会把整个kernel matrix 放到内存里

【在 d******e 的大作中提到】
: 不知道他是瞎忽悠还是做过,几百万x几百万的kernel放到内存里要上万G的内存。
: 即使单机使用了随机算法,输出的结果也非常不可靠。
: 而且,训练出来的模型也不实用,来一个测试样本要先计算几百万个内积,就是扯淡

N**D
发帖数: 10322
49
It is doable

【在 t***m 的大作中提到】
: 什么神奇的机器和svm training 算法可以两个星期就搞定这种数据?还有你的数据是
: sparse的吗?

d******e
发帖数: 7844
50
我没说一定要放到内存里,我也说可以用随机算法了,但这个实现并不可靠,也并不实
用。

【在 N**D 的大作中提到】
: 说说哪个算法会把整个kernel matrix 放到内存里
相关主题
请教:Map reduce到底是什么啊 (转载)问个数据库的问题。
cloud请教博士题目
搜索的核心技术, 李彦宏和GOOGLE的LARRY谁是先行者? (转载)请教关于大数据的问题
进入CS版参与讨论
p*********a
发帖数: 61
51
你对于 db vs. mp 的比较,概念都是错误的
data 都是 partition 的,每个 partition 有自己的 btree
scale 大了,仅仅是 partition 的数量增多,每个 btree 影响不大。
什么“数据一致性和结果正确性无法保证”,不知所云。
举个“无法保证”的 use case 出来?
distributed db 在 scale 有困难,是因为机器多了以后,failure 的概率很高
设计上并没有相应的机制,所以任何一台机器 failure 发生以后,
整个任务从头开始。failure rate 高了,一个任务老要重启。
mp 引入了 check point 的机制,每步运算结果全都存到磁盘上,failure
之后从中间算。所以每个任务不用重启,只需重复出错机器上一步的计算
因为每步都要 check point,写磁盘,这也是为什么 mp 在同样 scale 下,
相同的任务比 db 要慢很多 (如果不考虑 failure)

一点
。而
上测
穷算
对几
的差
来了
测出
no
SQL
他们
其原
和工
应的

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

N**D
发帖数: 10322
52
you have no idea what you are saying

【在 d******e 的大作中提到】
: 我没说一定要放到内存里,我也说可以用随机算法了,但这个实现并不可靠,也并不实
: 用。

w***s
发帖数: 424
53
RE!

【在 s****t 的大作中提到】
:
: 我看倒不是data的问题,
: 而是学校和公司的使命有根本的不同。

r********3
发帖数: 2998
54
这个还好。做system的很多lab现在也有自己的cluster,还是不小的集群。
你要是去看看那些做什么data mining, machine learning。特别是学统计,学数学的
人做的东西,基本上都是toy,根本放不到任何一个实际数据里面用。最夸张的是,看
到的很多实验仅仅用几十行matlab的script,在笔记本电脑上跑几百个数据点的结果。

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

N**D
发帖数: 10322
55
跑几百个点的是统计的
data mining搞的数据要稍微大一点

【在 r********3 的大作中提到】
: 这个还好。做system的很多lab现在也有自己的cluster,还是不小的集群。
: 你要是去看看那些做什么data mining, machine learning。特别是学统计,学数学的
: 人做的东西,基本上都是toy,根本放不到任何一个实际数据里面用。最夸张的是,看
: 到的很多实验仅仅用几十行matlab的script,在笔记本电脑上跑几百个数据点的结果。
:
: 一点
: 。而

s***n
发帖数: 459
56
Re
a*******m
发帖数: 626
57
工业界做分布式数据库的不要太多,特别是互联网公司,五年前就有很多在做了。

教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
,就是学术界做MapReduce的大部分都是扯淡。
上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的

然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
分布式数据库系统则一直是阳春白雪无人问津。
为什么?
一个显然的原因是大部分实验室和小公司都无法承受得起高价的分布式数据库系统。对
于他们来说,Hadoop是第一个可用的机群处理平台(MPI只能并行化计算,没法存数据)
。数据库理论再好,大家用不起那也是白搭。但是还有一个重要原因很多人都没有看到
。也是这个原因使得很多研究者发表的论文必然会受到工业界背后的嘲笑。
我说的这个原因就是scale。Mike在SIGMOD09上发表的论文实在100个节点的cluster上测
得性能。在这样小的scale上面根本就看不出MapReduce的威力。是的,MapReduce是穷算
,但是它的吞吐量基本是线性的。只要你数据规模足够大,1000台机器所能提供的性能
即使没有100台的10倍,也能达到个三五倍。但是B+树或者别的索引结构随着scale增大
,实现的复杂度和额外开销是急剧增加的。当有成千上万台机器的时候,甚至要维护数
据的一致性和结果的正确性都难。如果在1000个节点,甚至10000个节点的规模上再对几
种方法进行评测,结果可能会完全不一样。(当然,Hadoop跟真正Google MapReduce的差
距也不应小觑。)
现在MapReduce火了,学术界就有N多人开始改吧Hadoop,paper开始如流水般的就出来了
。但是很少有实验室能够花销得起1000个节点的cluster进行评测。你拿百十个节点测出
来的数据根本就没有说服力。对于一个大规模的机群,想要正确稳定高效地实现一个no
n-trivial的算法,即使不是不可能,也必然需要花费大量的时间。其实大家都知道SQL
和索引好,但是如果Google想在他们的机群上实现SQL和索引,可能需要5年甚至更长的
时间。他们等得起吗?事实是,MapReduce一出来,Google的production system在两年
之内就用上了这个系统。在这一点上,学术界和工业界虽然都在说MapReduce,但是他们
做的是不同的东西,面对的是不同的约束,基本上是鸡同鸭讲。
最后我想说的是,人类对大规模数据处理的研究才刚刚起步。MapReduce只是一个极其原
始的手段。微软搞的那个东西比MapReduce好点,但也好不了多少。随着计算机科学和工
程量方面的发展以及时间的推移,我们还是能期望出现在更大规模上实现SQL或者对应的
功能的。这期间,学术界需要解决一个重要的现实问题,就是如何集中资源搭建一个用
于研究的大规模试验平台。规模上不去,系统研究基本上就变成扯淡了。
这版上人气太小,鬼都要出来了。我多过来吹吹牛,大家轻拍。

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

M**u
发帖数: 10158
58
nosql database一直都很热

一点
。而
上测
穷算
对几
的差
来了
测出
no
SQL
他们
其原
和工
应的

【在 a*******m 的大作中提到】
: 工业界做分布式数据库的不要太多,特别是互联网公司,五年前就有很多在做了。
:
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而

s****t
发帖数: 698
59


前一阵子才看到的这个,nosql,
谁给大致说说是啥呗?赫赫,懒得googl了

【在 M**u 的大作中提到】
: nosql database一直都很热
:
: 一点
: 。而
: 上测
: 穷算
: 对几
: 的差
: 来了
: 测出

N**D
发帖数: 10322
60
buzz words

【在 s****t 的大作中提到】
:
:
: 前一阵子才看到的这个,nosql,
: 谁给大致说说是啥呗?赫赫,懒得googl了

相关主题
云有没有可能代替超级计算机进行科学计算?构建并行计算环境求助
感觉云计算其实是伪科学求教! how to run python programs on a hadoop cluster
有人了解 google 的 regular expression search 是怎么实现的吗大概多大规模的数据处理有必要用到hadoop?
进入CS版参与讨论
P****a
发帖数: 864
61
support

【在 N**D 的大作中提到】
: It is doable
P****a
发帖数: 864
62
为什么不可靠呢?为什么不实用呢

【在 d******e 的大作中提到】
: 我没说一定要放到内存里,我也说可以用随机算法了,但这个实现并不可靠,也并不实
: 用。

w***g
发帖数: 50
63
确实是这样,云计算都是学术界跟在工业界屁股后面混饭吃

一点
。而

【在 w***g 的大作中提到】
: 教授们要找funding混日子,学生要出文章毕业,我们不能怪他们。不过也需要看到一点
: ,就是学术界做MapReduce的大部分都是扯淡。
: 上面有人提到了Mike Stonebraker对MapReduce的鄙视。Mike是对的,因为MapReduce就
: 是穷算,甚至都算不上有算法。MapReduce对于SQL而言,就跟汇编语言跟Java的区别类
: 似。而且MapReduce不支持任何索引和查询优化。如果仅从功能上而看确实象形见拙。而
: 且从理论上而言,穷算(O(n))和索引(一般是O(log n))所能提供的性能是有天壤之别的
: 。
: 然而Mike又错了,因为事实是MapReduce确实是火了。整个工业界都在谈MapReduce,而
: 分布式数据库系统则一直是阳春白雪无人问津。
: 为什么?

a*********g
发帖数: 8087
64
人类对大规模数据处理的研究才刚刚起步。
====
同意这个
b*******t
发帖数: 79
65
计算机的academic从来都收靠灌水文章生存的,当然有些天才除外比如Chris Lattner
更牛的人根不能不屑于读phd,早就去赚钱去啦
1 (共1页)
进入CS版参与讨论
相关主题
云有没有可能代替超级计算机进行科学计算?help with a paper? (转载)
感觉云计算其实是伪科学估计Papadimitriou再熬几年就turing award了
有人了解 google 的 regular expression search 是怎么实现的吗《数据库系统基础 (第6版)》文字版[PDF]
构建并行计算环境求助从曙光十年的发展看自主创新
求教! how to run python programs on a hadoop cluster有什么论文讨论过字符串匹配的索引结构?
大概多大规模的数据处理有必要用到hadoop?请教:Map reduce到底是什么啊 (转载)
sigmod09挂了cloud
Sigmod09 reviewers really suck搜索的核心技术, 李彦宏和GOOGLE的LARRY谁是先行者? (转载)
相关话题的讨论汇总
话题: mapreduce话题: sql话题: 学术界话题: 穷算话题: mike