b**********h 发帖数: 419 | 1 粗看了一下,两者的功能重叠,现在哪种值得学?
目标是做backend |
c*******9 发帖数: 9032 | 2 spark
【在 b**********h 的大作中提到】 : 粗看了一下,两者的功能重叠,现在哪种值得学? : 目标是做backend
|
d****n 发帖数: 12461 | 3 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。
我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是
框架了。
【在 b**********h 的大作中提到】 : 粗看了一下,两者的功能重叠,现在哪种值得学? : 目标是做backend
|
T*******x 发帖数: 8565 | 4 都是什么框架?
【在 d****n 的大作中提到】 : 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。 : 我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是 : 框架了。
|
b**********h 发帖数: 419 | 5 谢回答。那用来替换基础的东西是什么呢?(pig,hbase是不是被spark替代了?)
【在 d****n 的大作中提到】 : 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。 : 我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是 : 框架了。
|
n*w 发帖数: 3393 | 6 hive 没有被spark SQL代替?
【在 d****n 的大作中提到】 : 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。 : 我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是 : 框架了。
|
w***g 发帖数: 5958 | 7 hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。
就spark好了。
【在 n*w 的大作中提到】 : hive 没有被spark SQL代替?
|
n*w 发帖数: 3393 | 8 hadoop 留下来的没有新的替代品就是HDFS了?
【在 w***g 的大作中提到】 : hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。 : 就spark好了。
|
w***g 发帖数: 5958 | 9 是。但是对一般人来说HDFS作用也越来越小了。
讲真如果真要学东西还是sklearn和python那套ecosystem比较好。
【在 n*w 的大作中提到】 : hadoop 留下来的没有新的替代品就是HDFS了?
|
d****n 发帖数: 12461 | 10 无非是三驾老马车:kafka, spark, storm。新马车正在evaluate中。
【在 T*******x 的大作中提到】 : 都是什么框架?
|
|
|
d****n 发帖数: 12461 | 11 pig应该是没人写了。用spark sql来操作hive和文件。
【在 n*w 的大作中提到】 : hive 没有被spark SQL代替?
|
d*******r 发帖数: 3299 | 12 storm这种stream型还不能被spark这种完全取代?
【在 d****n 的大作中提到】 : 无非是三驾老马车:kafka, spark, storm。新马车正在evaluate中。
|
w**z 发帖数: 8232 | 13 storm 没啥用了吧?
【在 d****n 的大作中提到】 : 无非是三驾老马车:kafka, spark, storm。新马车正在evaluate中。
|
d****n 发帖数: 12461 | 14 那你们用啥取代storm?
【在 w**z 的大作中提到】 : storm 没啥用了吧?
|
b**********h 发帖数: 419 | |
w**z 发帖数: 8232 | 16 我们用自己的 stream processing. spark steam 更有前途?
【在 d****n 的大作中提到】 : 那你们用啥取代storm?
|
s*********y 发帖数: 6151 | 17 spark不是hadoop的升级版吗? 我一直把他看成hadoop的超集
【在 b**********h 的大作中提到】 : 粗看了一下,两者的功能重叠,现在哪种值得学? : 目标是做backend
|
d****n 发帖数: 12461 | 18 能用spark stream解决的那看来你们还用不到streaming。
【在 w**z 的大作中提到】 : 我们用自己的 stream processing. spark steam 更有前途?
|
w**z 发帖数: 8232 | 19 你说的是哪国话?
【在 d****n 的大作中提到】 : 能用spark stream解决的那看来你们还用不到streaming。
|
n*w 发帖数: 3393 | 20 应该是指有些任务只能用storm。spark stream不是真正的streaming。
我猜的。
【在 w**z 的大作中提到】 : 你说的是哪国话?
|
|
|
d****n 发帖数: 12461 | 21 我举个例子,spark streaming只有一个全局窗口,而且是jvm起来之前就定好的,在2.
0出现dynamic executor allocation之前对于data skewness束手无策。
【在 n*w 的大作中提到】 : 应该是指有些任务只能用storm。spark stream不是真正的streaming。 : 我猜的。
|
n*w 发帖数: 3393 | 22 我还没开始学spark streaming。
不过对非streaming情况的data skewness,要用reshuffle?
不过有读到reshuffle很expensive,要少用。听起来这两个说法有点矛盾?
2.
【在 d****n 的大作中提到】 : 我举个例子,spark streaming只有一个全局窗口,而且是jvm起来之前就定好的,在2. : 0出现dynamic executor allocation之前对于data skewness束手无策。
|
d****n 发帖数: 12461 | 23 成本根本不是问题,像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。
reshuffle的本质问题是需要知道skewness的样子和规模,但是streaming过程中你也许
只知道skewness(可能已经)发生了,但是对于skewness的样子和规模只能对照历史按图
索骥,而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。
当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。
【在 n*w 的大作中提到】 : 我还没开始学spark streaming。 : 不过对非streaming情况的data skewness,要用reshuffle? : 不过有读到reshuffle很expensive,要少用。听起来这两个说法有点矛盾? : : 2.
|
x***4 发帖数: 1815 | 24 讲讲DAG有什么缺点?
题。
【在 d****n 的大作中提到】 : 成本根本不是问题,像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。 : reshuffle的本质问题是需要知道skewness的样子和规模,但是streaming过程中你也许 : 只知道skewness(可能已经)发生了,但是对于skewness的样子和规模只能对照历史按图 : 索骥,而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。 : 当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。
|