学Hadoop还是spark - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 学Hadoop还是spark

相关主题
● 试了下spark，不过如此啊	● Flink Sparks Next Wave of Distributed Data Processing
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● 搞不懂为什么大牛说Hbase不如C*?
● Hadoop/HBase/HDFS三驾马车过时了吗？	● MapReduce 的思想是怎么发明的？
● coltzhao的公司还在用mongo吗？	● Time series big data大家觉得怎么存储比较好？
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？
● 学scala和spark需要什么pre req?	● 求助大神如何迅速让DATA science 简历好看一点
● 关于 SPARK, 问二爷peking2 和其他大牛一问题	● 各位大牛，Apache Apex 怎么样？
● Hadoop 和Python的数据分析包哪个更值得学习？	● Big data question

相关话题的讨论汇总
话题: spark话题: hadoop话题: streaming话题: storm话题: skewness

进入Programming版参与讨论

(共1页)

b**********h
发帖数: 419

粗看了一下，两者的功能重叠，现在哪种值得学？
目标是做backend

c*******9
发帖数: 9032

spark

【在 b**********h 的大作中提到】

: 粗看了一下，两者的功能重叠，现在哪种值得学？
: 目标是做backend

d****n
发帖数: 12461

这是啥问题？hadoop只不过是一堆工具的整合，没所谓学啥。
我们现在基本不用基础的东西例如pig, hbase了，hive还用，hdfs一直用。剩下的都是
框架了。

【在 b**********h 的大作中提到】

: 粗看了一下，两者的功能重叠，现在哪种值得学？
: 目标是做backend

T*******x
发帖数: 8565

都是什么框架？

【在 d****n 的大作中提到】

: 这是啥问题？hadoop只不过是一堆工具的整合，没所谓学啥。
: 我们现在基本不用基础的东西例如pig, hbase了，hive还用，hdfs一直用。剩下的都是
: 框架了。

b**********h
发帖数: 419

谢回答。那用来替换基础的东西是什么呢？（pig，hbase是不是被spark替代了？）

【在 d****n 的大作中提到】

n*w
发帖数: 3393

hive 没有被spark SQL代替？

【在 d****n 的大作中提到】

w***g
发帖数: 5958

hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。
就spark好了。

【在 n*w 的大作中提到】

: hive 没有被spark SQL代替？

n*w
发帖数: 3393

hadoop 留下来的没有新的替代品就是HDFS了？

【在 w***g 的大作中提到】

: hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。
: 就spark好了。

w***g
发帖数: 5958

是。但是对一般人来说HDFS作用也越来越小了。
讲真如果真要学东西还是sklearn和python那套ecosystem比较好。

【在 n*w 的大作中提到】

: hadoop 留下来的没有新的替代品就是HDFS了？

d****n
发帖数: 12461

无非是三驾老马车：kafka, spark, storm。新马车正在evaluate中。

【在 T*******x 的大作中提到】

: 都是什么框架？

相关主题
● 学scala和spark需要什么pre req?	● Flink Sparks Next Wave of Distributed Data Processing
● 关于 SPARK, 问二爷peking2 和其他大牛一问题	● 搞不懂为什么大牛说Hbase不如C*?
● Hadoop 和Python的数据分析包哪个更值得学习？	● MapReduce 的思想是怎么发明的？
进入Programming版参与讨论

d****n
发帖数: 12461

pig应该是没人写了。用spark sql来操作hive和文件。

【在 n*w 的大作中提到】

: hive 没有被spark SQL代替？

d*******r
发帖数: 3299

storm这种stream型还不能被spark这种完全取代?

【在 d****n 的大作中提到】

: 无非是三驾老马车：kafka, spark, storm。新马车正在evaluate中。

w**z
发帖数: 8232

storm 没啥用了吧？

【在 d****n 的大作中提到】

: 无非是三驾老马车：kafka, spark, storm。新马车正在evaluate中。

d****n
发帖数: 12461

那你们用啥取代storm？

【在 w**z 的大作中提到】

: storm 没啥用了吧？

b**********h
发帖数: 419

那scala现在还值得学吗？用spark的话

w**z
发帖数: 8232

我们用自己的 stream processing. spark steam 更有前途？

【在 d****n 的大作中提到】

: 那你们用啥取代storm？

s*********y
发帖数: 6151

spark不是hadoop的升级版吗？我一直把他看成hadoop的超集

【在 b**********h 的大作中提到】

: 粗看了一下，两者的功能重叠，现在哪种值得学？
: 目标是做backend

d****n
发帖数: 12461

能用spark stream解决的那看来你们还用不到streaming。

【在 w**z 的大作中提到】

: 我们用自己的 stream processing. spark steam 更有前途？

w**z
发帖数: 8232

你说的是哪国话？

【在 d****n 的大作中提到】

: 能用spark stream解决的那看来你们还用不到streaming。

n*w
发帖数: 3393

应该是指有些任务只能用storm。spark stream不是真正的streaming。
我猜的。

【在 w**z 的大作中提到】

: 你说的是哪国话？

相关主题
● Time series big data大家觉得怎么存储比较好？	● 各位大牛，Apache Apex 怎么样？
● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？	● Big data question
● 求助大神如何迅速让DATA science 简历好看一点	● cs这几个方向，哪个现在和未来的状况最好？
进入Programming版参与讨论

d****n
发帖数: 12461

我举个例子，spark streaming只有一个全局窗口，而且是jvm起来之前就定好的，在2.
0出现dynamic executor allocation之前对于data skewness束手无策。

【在 n*w 的大作中提到】

: 应该是指有些任务只能用storm。spark stream不是真正的streaming。
: 我猜的。

n*w
发帖数: 3393

我还没开始学spark streaming。
不过对非streaming情况的data skewness，要用reshuffle？
不过有读到reshuffle很expensive，要少用。听起来这两个说法有点矛盾？

2.

【在 d****n 的大作中提到】

: 我举个例子，spark streaming只有一个全局窗口，而且是jvm起来之前就定好的，在2.
: 0出现dynamic executor allocation之前对于data skewness束手无策。

d****n
发帖数: 12461

成本根本不是问题，像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。
reshuffle的本质问题是需要知道skewness的样子和规模，但是streaming过程中你也许
只知道skewness(可能已经)发生了，但是对于skewness的样子和规模只能对照历史按图
索骥，而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。
当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。

【在 n*w 的大作中提到】

: 我还没开始学spark streaming。
: 不过对非streaming情况的data skewness，要用reshuffle？
: 不过有读到reshuffle很expensive，要少用。听起来这两个说法有点矛盾？
:
: 2.

x***4
发帖数: 1815

讲讲DAG有什么缺点？

题。

【在 d****n 的大作中提到】

: 成本根本不是问题，像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。
: reshuffle的本质问题是需要知道skewness的样子和规模，但是streaming过程中你也许
: 只知道skewness(可能已经)发生了，但是对于skewness的样子和规模只能对照历史按图
: 索骥，而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。
: 当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。

(共1页)

进入Programming版参与讨论

相关主题
● Big data question	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● cs这几个方向，哪个现在和未来的状况最好？	● 学scala和spark需要什么pre req?
● 接触scala两年了	● 关于 SPARK, 问二爷peking2 和其他大牛一问题
● 关于big data	● Hadoop 和Python的数据分析包哪个更值得学习？
● 试了下spark，不过如此啊	● Flink Sparks Next Wave of Distributed Data Processing
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● 搞不懂为什么大牛说Hbase不如C*?
● Hadoop/HBase/HDFS三驾马车过时了吗？	● MapReduce 的思想是怎么发明的？
● coltzhao的公司还在用mongo吗？	● Time series big data大家觉得怎么存储比较好？

相关话题的讨论汇总
话题: spark话题: hadoop话题: streaming话题: storm话题: skewness

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天