由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 学Hadoop还是spark
相关主题
试了下spark,不过如此啊Flink Sparks Next Wave of Distributed Data Processing
感觉flink出来之后,hadoop就显得不怎么再需要了搞不懂为什么大牛说Hbase不如C*?
Hadoop/HBase/HDFS三驾马车过时了吗?MapReduce 的思想是怎么发明的?
coltzhao的公司还在用mongo吗?Time series big data大家觉得怎么存储比较好?
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
学scala和spark需要什么pre req?求助大神 如何迅速让DATA science 简历好看一点
关于 SPARK, 问二爷peking2 和其他大牛一问题各位大牛,Apache Apex 怎么样?
Hadoop 和Python的数据分析包哪个更值得学习?Big data question
相关话题的讨论汇总
话题: spark话题: hadoop话题: streaming话题: storm话题: skewness
进入Programming版参与讨论
1 (共1页)
b**********h
发帖数: 419
1
粗看了一下,两者的功能重叠,现在哪种值得学?
目标是做backend
c*******9
发帖数: 9032
2
spark

【在 b**********h 的大作中提到】
: 粗看了一下,两者的功能重叠,现在哪种值得学?
: 目标是做backend

d****n
发帖数: 12461
3
这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。
我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是
框架了。

【在 b**********h 的大作中提到】
: 粗看了一下,两者的功能重叠,现在哪种值得学?
: 目标是做backend

T*******x
发帖数: 8565
4
都是什么框架?

【在 d****n 的大作中提到】
: 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。
: 我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是
: 框架了。

b**********h
发帖数: 419
5
谢回答。那用来替换基础的东西是什么呢?(pig,hbase是不是被spark替代了?)

【在 d****n 的大作中提到】
: 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。
: 我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是
: 框架了。

n*w
发帖数: 3393
6
hive 没有被spark SQL代替?

【在 d****n 的大作中提到】
: 这是啥问题?hadoop只不过是一堆工具的整合,没所谓学啥。
: 我们现在基本不用基础的东西例如pig, hbase了,hive还用,hdfs一直用。剩下的都是
: 框架了。

w***g
发帖数: 5958
7
hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。
就spark好了。

【在 n*w 的大作中提到】
: hive 没有被spark SQL代替?
n*w
发帖数: 3393
8
hadoop 留下来的没有新的替代品就是HDFS了?

【在 w***g 的大作中提到】
: hive可以被spark SQL替代。几年前就有了。现在再上hive我觉得不值。
: 就spark好了。

w***g
发帖数: 5958
9
是。但是对一般人来说HDFS作用也越来越小了。
讲真如果真要学东西还是sklearn和python那套ecosystem比较好。

【在 n*w 的大作中提到】
: hadoop 留下来的没有新的替代品就是HDFS了?
d****n
发帖数: 12461
10
无非是三驾老马车:kafka, spark, storm。新马车正在evaluate中。

【在 T*******x 的大作中提到】
: 都是什么框架?
相关主题
学scala和spark需要什么pre req?Flink Sparks Next Wave of Distributed Data Processing
关于 SPARK, 问二爷peking2 和其他大牛一问题搞不懂为什么大牛说Hbase不如C*?
Hadoop 和Python的数据分析包哪个更值得学习?MapReduce 的思想是怎么发明的?
进入Programming版参与讨论
d****n
发帖数: 12461
11
pig应该是没人写了。用spark sql来操作hive和文件。

【在 n*w 的大作中提到】
: hive 没有被spark SQL代替?
d*******r
发帖数: 3299
12
storm这种stream型还不能被spark这种完全取代?

【在 d****n 的大作中提到】
: 无非是三驾老马车:kafka, spark, storm。新马车正在evaluate中。
w**z
发帖数: 8232
13
storm 没啥用了吧?

【在 d****n 的大作中提到】
: 无非是三驾老马车:kafka, spark, storm。新马车正在evaluate中。
d****n
发帖数: 12461
14
那你们用啥取代storm?

【在 w**z 的大作中提到】
: storm 没啥用了吧?
b**********h
发帖数: 419
15
那scala现在还值得学吗?用spark的话
w**z
发帖数: 8232
16
我们用自己的 stream processing. spark steam 更有前途?

【在 d****n 的大作中提到】
: 那你们用啥取代storm?
s*********y
发帖数: 6151
17
spark不是hadoop的升级版吗? 我一直把他看成hadoop的超集

【在 b**********h 的大作中提到】
: 粗看了一下,两者的功能重叠,现在哪种值得学?
: 目标是做backend

d****n
发帖数: 12461
18
能用spark stream解决的那看来你们还用不到streaming。

【在 w**z 的大作中提到】
: 我们用自己的 stream processing. spark steam 更有前途?
w**z
发帖数: 8232
19
你说的是哪国话?

【在 d****n 的大作中提到】
: 能用spark stream解决的那看来你们还用不到streaming。
n*w
发帖数: 3393
20
应该是指有些任务只能用storm。spark stream不是真正的streaming。
我猜的。

【在 w**z 的大作中提到】
: 你说的是哪国话?
相关主题
Time series big data大家觉得怎么存储比较好?各位大牛,Apache Apex 怎么样?
现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?Big data question
求助大神 如何迅速让DATA science 简历好看一点cs这几个方向,哪个现在和未来的状况最好?
进入Programming版参与讨论
d****n
发帖数: 12461
21
我举个例子,spark streaming只有一个全局窗口,而且是jvm起来之前就定好的,在2.
0出现dynamic executor allocation之前对于data skewness束手无策。

【在 n*w 的大作中提到】
: 应该是指有些任务只能用storm。spark stream不是真正的streaming。
: 我猜的。

n*w
发帖数: 3393
22
我还没开始学spark streaming。
不过对非streaming情况的data skewness,要用reshuffle?
不过有读到reshuffle很expensive,要少用。听起来这两个说法有点矛盾?

2.

【在 d****n 的大作中提到】
: 我举个例子,spark streaming只有一个全局窗口,而且是jvm起来之前就定好的,在2.
: 0出现dynamic executor allocation之前对于data skewness束手无策。

d****n
发帖数: 12461
23
成本根本不是问题,像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。
reshuffle的本质问题是需要知道skewness的样子和规模,但是streaming过程中你也许
只知道skewness(可能已经)发生了,但是对于skewness的样子和规模只能对照历史按图
索骥,而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。
当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。

【在 n*w 的大作中提到】
: 我还没开始学spark streaming。
: 不过对非streaming情况的data skewness,要用reshuffle?
: 不过有读到reshuffle很expensive,要少用。听起来这两个说法有点矛盾?
:
: 2.

x***4
发帖数: 1815
24
讲讲DAG有什么缺点?

题。

【在 d****n 的大作中提到】
: 成本根本不是问题,像网络带宽或者磁盘读写速度这些都是可以提前测试和估计的。
: reshuffle的本质问题是需要知道skewness的样子和规模,但是streaming过程中你也许
: 只知道skewness(可能已经)发生了,但是对于skewness的样子和规模只能对照历史按图
: 索骥,而这“按图索骥”可能就是个上层内容。其实2.0开始DEA解决了一个很大的问题。
: 当然spark还有个命门就是DAG。当然这个和streaming下的问题无关了。

1 (共1页)
进入Programming版参与讨论
相关主题
Big data questionHadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
cs这几个方向,哪个现在和未来的状况最好?学scala和spark需要什么pre req?
接触scala两年了关于 SPARK, 问二爷peking2 和其他大牛一问题
关于big dataHadoop 和Python的数据分析包哪个更值得学习?
试了下spark,不过如此啊Flink Sparks Next Wave of Distributed Data Processing
感觉flink出来之后,hadoop就显得不怎么再需要了搞不懂为什么大牛说Hbase不如C*?
Hadoop/HBase/HDFS三驾马车过时了吗?MapReduce 的思想是怎么发明的?
coltzhao的公司还在用mongo吗?Time series big data大家觉得怎么存储比较好?
相关话题的讨论汇总
话题: spark话题: hadoop话题: streaming话题: storm话题: skewness