k**********g 发帖数: 40 | 1 最近关注了一些这方面的东西 不知道有没有在这个行业内混的 能给提供些个人看法
这个行业 能指望着他混口饭吃么 |
s****1 发帖数: 425 | |
U****r 发帖数: 206 | 3 是个老坑,换个名字骗钱用。
★ 发自iPhone App: ChineseWeb 7.8
【在 s****1 的大作中提到】 : 那些专家都搞不清楚是不是坑
|
g****l 发帖数: 213 | 4 不是坑,或者说,是不是坑就看你怎么做为了,现在看来,big data 不是全新的技术
,只是对现状的补充完善,但是这个补充会是将来的主要方向,所以关注它是迟早的事
,晚不如早,想入行的别犹豫了! |
m******e 发帖数: 21 | |
k**********g 发帖数: 40 | 6 最近关注了一些这方面的东西 不知道有没有在这个行业内混的 能给提供些个人看法
这个行业 能指望着他混口饭吃么 |
s****1 发帖数: 425 | |
U****r 发帖数: 206 | 8 是个老坑,换个名字骗钱用。
★ 发自iPhone App: ChineseWeb 7.8
【在 s****1 的大作中提到】 : 那些专家都搞不清楚是不是坑
|
g****l 发帖数: 213 | 9 不是坑,或者说,是不是坑就看你怎么做为了,现在看来,big data 不是全新的技术
,只是对现状的补充完善,但是这个补充会是将来的主要方向,所以关注它是迟早的事
,晚不如早,想入行的别犹豫了! |
m******e 发帖数: 21 | |
w***s 发帖数: 2658 | 11 我来给个摘编:
大数据系统的核心主要是分布式处理框架,因为框架负责工作(job )执行的方方面面
,如工作分解、任务(task)调度与执行、错误容忍、数据流等等。这其中重要的早期
工作是Google的MapReduce框架,它将函数式编程思想引入到分布式数据处理中,仅仅
依托两个函数(map和reduce)不仅解决了一大类的大数据批处理问题,而且用户也再
也不用担心分布式带来的诸多系统层面问题。不过MapReduce缺点也很显著,比如处理
流程过于固定,不支持迭代,工作执行时间一般较长,等等。Hadoop是MapReduce的开
源实现,在国内很流行,而且在08年的时候赢得了TeraSort的冠军,所以市场很蔓延,
形成了庞大而臃肿的生态圈。此后,微软在08年推出了与 MapReduce直接竞争的Dryad
,以DAG型的数据流取代了MapReduce固定的数据流,更复杂但功能更强。09年出现的
DryadLINQ将更多的函数式思想(主要来源于C#的LINQ)引入到分布式编程范型中,这
些即使在今天看来也很先进。再此后Spark出现了,Spark最大的特点在于她的数据模型
采用RDD,以前的框架都把数据当成原始的KV键值对,整个处理流程中不同阶段的数据
没有明确关系。RDD则给出了明确的数据逻辑关系,建立了数据依赖及数据模型,最后
也能方便地将数据模型转化为具体的处理任务。Spark的编程范型应该是借鉴了
DryadLINQ的范型。至于内存cache、迭代计算等特性,只要把MapReduce或Dryad的实现
机制改动一下也可以完成。当然这些特性对减低工作执行时间很重要,因而也是Spark
的髙光点。对应地,EPFL的Scala语言以学院派的特质、函数式、静态 类型、面向对象
、Java兼容等优点,成了Spark的有力武器。现在不少人认为 Scala会是Java的接班人
。 |