big data是下一个大坑吗 - Computation版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Computation版 - big data是下一个大坑吗

相关主题
● 数据分析, DA,DS,SI需学什编程langugage	● 对scala的误解
● Big data是下一个大坑吗	● ms 真是惨
● Spark这个东西真的有很多公司在用吗。。？	● spark 到底牛在什么地方？
● Spark PK Akka 完胜呀	● spark RDD不能当K/V store是吧？
● 要不要跳ASP.net and C# 坑？	● spark看了一边没什么难点啊。7天掌握
● server side language 统计，java:.Net = 1:5	● Spark 和 Dynamodb 之间如何连接
● 爪哇就是黑穆三	● Spark已经out了，能跳船的赶快
● 系统设计能力提高捷径	● 关于spark的cache问题一直没想清楚

相关话题的讨论汇总
话题: mapreduce话题: data话题: big话题: spark话题: 大坑

进入Computation版参与讨论

1

(共1页)

k**********g 发帖数: 40	1 最近关注了一些这方面的东西不知道有没有在这个行业内混的能给提供些个人看法这个行业能指望着他混口饭吃么
s****1 发帖数: 425	2 那些专家都搞不清楚是不是坑
U****r 发帖数: 206	3 是个老坑，换个名字骗钱用。 ★ 发自iPhone App: ChineseWeb 7.8 【在 s****1 的大作中提到】 : 那些专家都搞不清楚是不是坑
g****l 发帖数: 213	4 不是坑，或者说，是不是坑就看你怎么做为了，现在看来，big data 不是全新的技术，只是对现状的补充完善，但是这个补充会是将来的主要方向，所以关注它是迟早的事，晚不如早，想入行的别犹豫了!
m******e 发帖数: 21	5 big data感觉包含的东西很杂啊
k**********g 发帖数: 40	6 最近关注了一些这方面的东西不知道有没有在这个行业内混的能给提供些个人看法这个行业能指望着他混口饭吃么
s****1 发帖数: 425	7 那些专家都搞不清楚是不是坑
U****r 发帖数: 206	8 是个老坑，换个名字骗钱用。 ★ 发自iPhone App: ChineseWeb 7.8 【在 s****1 的大作中提到】 : 那些专家都搞不清楚是不是坑
g****l 发帖数: 213	9 不是坑，或者说，是不是坑就看你怎么做为了，现在看来，big data 不是全新的技术，只是对现状的补充完善，但是这个补充会是将来的主要方向，所以关注它是迟早的事，晚不如早，想入行的别犹豫了!
m******e 发帖数: 21	10 big data感觉包含的东西很杂啊
w***s 发帖数: 2658	11 我来给个摘编：大数据系统的核心主要是分布式处理框架，因为框架负责工作（job ）执行的方方面面，如工作分解、任务（task）调度与执行、错误容忍、数据流等等。这其中重要的早期工作是Google的MapReduce框架，它将函数式编程思想引入到分布式数据处理中，仅仅依托两个函数（map和reduce）不仅解决了一大类的大数据批处理问题，而且用户也再也不用担心分布式带来的诸多系统层面问题。不过MapReduce缺点也很显著，比如处理流程过于固定，不支持迭代，工作执行时间一般较长，等等。Hadoop是MapReduce的开源实现，在国内很流行，而且在08年的时候赢得了TeraSort的冠军，所以市场很蔓延，形成了庞大而臃肿的生态圈。此后，微软在08年推出了与 MapReduce直接竞争的Dryad ，以DAG型的数据流取代了MapReduce固定的数据流，更复杂但功能更强。09年出现的 DryadLINQ将更多的函数式思想（主要来源于C#的LINQ）引入到分布式编程范型中，这些即使在今天看来也很先进。再此后Spark出现了，Spark最大的特点在于她的数据模型采用RDD，以前的框架都把数据当成原始的KV键值对，整个处理流程中不同阶段的数据没有明确关系。RDD则给出了明确的数据逻辑关系，建立了数据依赖及数据模型，最后也能方便地将数据模型转化为具体的处理任务。Spark的编程范型应该是借鉴了 DryadLINQ的范型。至于内存cache、迭代计算等特性，只要把MapReduce或Dryad的实现机制改动一下也可以完成。当然这些特性对减低工作执行时间很重要，因而也是Spark 的髙光点。对应地，EPFL的Scala语言以学院派的特质、函数式、静态类型、面向对象、Java兼容等优点，成了Spark的有力武器。现在不少人认为 Scala会是Java的接班人。

1

(共1页)

进入Computation版参与讨论

相关主题
● 关于spark的cache问题一直没想清楚	● 要不要跳ASP.net and C# 坑？
● 怎样schedule spark application	● server side language 统计，java:.Net = 1:5
● Spark RDD	● 爪哇就是黑穆三
● 请教一下，各位牛人觉得Rust语言怎么样？	● 系统设计能力提高捷径
● 数据分析, DA,DS,SI需学什编程langugage	● 对scala的误解
● Big data是下一个大坑吗	● ms 真是惨
● Spark这个东西真的有很多公司在用吗。。？	● spark 到底牛在什么地方？
● Spark PK Akka 完胜呀	● spark RDD不能当K/V store是吧？

相关话题的讨论汇总
话题: mapreduce话题: data话题: big话题: spark话题: 大坑

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)