由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 感觉flink出来之后,hadoop就显得不怎么再需要了
相关主题
搞不懂为什么大牛说Hbase不如C*?学scala和spark需要什么pre req?
关于 SPARK, 问二爷peking2 和其他大牛一问题试了下spark,不过如此啊
Flink Sparks Next Wave of Distributed Data ProcessingTime series big data大家觉得怎么存储比较好?
MapReduce 的思想是怎么发明的?学Hadoop还是spark
问二爷一个题外话现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧?
Hadoop 和Python的数据分析包哪个更值得学习?这种情况该用那种big data tool?
Spark + C*Spark已经out了,能跳船的赶快
相关话题的讨论汇总
话题: flink话题: yarn话题: hadoop话题: spark话题: cassandra
进入Programming版参与讨论
1 (共1页)
z****e
发帖数: 54598
1
现在hadoop eco里面有啥值得留恋的?
我就觉得cassandra不错,值得带走
其他的pig,hive啥的,也就那么一回事
spark已经收割了一轮了,之后flink出来之后如果再收割一轮
也就没啥剩下的了?
前几年写的系统很快又要凹凸了,哎
话说回来,对flink还是充满着期待啊
datastream+dataset模式比较符合人的本能设计
c*******9
发帖数: 9032
2
database用什么好?

【在 z****e 的大作中提到】
: 现在hadoop eco里面有啥值得留恋的?
: 我就觉得cassandra不错,值得带走
: 其他的pig,hive啥的,也就那么一回事
: spark已经收割了一轮了,之后flink出来之后如果再收割一轮
: 也就没啥剩下的了?
: 前几年写的系统很快又要凹凸了,哎
: 话说回来,对flink还是充满着期待啊
: datastream+dataset模式比较符合人的本能设计

y**********u
发帖数: 6366
3
what
Cassandra的性能还不是太好吧

【在 z****e 的大作中提到】
: 现在hadoop eco里面有啥值得留恋的?
: 我就觉得cassandra不错,值得带走
: 其他的pig,hive啥的,也就那么一回事
: spark已经收割了一轮了,之后flink出来之后如果再收割一轮
: 也就没啥剩下的了?
: 前几年写的系统很快又要凹凸了,哎
: 话说回来,对flink还是充满着期待啊
: datastream+dataset模式比较符合人的本能设计

z****e
发帖数: 54598
4
postgre
如果对mysql实在是舍不得
可以用mariadb

【在 c*******9 的大作中提到】
: database用什么好?
z****e
发帖数: 54598
5

找不到更好的了,要不你说一个

【在 y**********u 的大作中提到】
: what
: Cassandra的性能还不是太好吧

n*****3
发帖数: 1584
6
yarn 很好,要用啊
ETL 还是可以 用Hadoop ego, spark sql 还比较新。

【在 z****e 的大作中提到】
: 现在hadoop eco里面有啥值得留恋的?
: 我就觉得cassandra不错,值得带走
: 其他的pig,hive啥的,也就那么一回事
: spark已经收割了一轮了,之后flink出来之后如果再收割一轮
: 也就没啥剩下的了?
: 前几年写的系统很快又要凹凸了,哎
: 话说回来,对flink还是充满着期待啊
: datastream+dataset模式比较符合人的本能设计

z****e
发帖数: 54598
7

etl用datastream,这个是最值得注意的部分啊
要不然就用spark了
sql用table api,这个纯粹是脚本引擎
这个如果不是只懂sql的话,不用也没啥大不了的
反正我感觉大部分dev对于sql都不是特别热爱
跟js差不多,多数都是一种够用便可的态度
yarn跟dataset也就是batch processing
也就是spark,flink这些几乎是直接竞争关系
虽说这两个都可以over yarn,但是貌似不用yarn也没啥大不了的
好像还更快一点,除非要用hpc这些,那yarn会比较方便

【在 n*****3 的大作中提到】
: yarn 很好,要用啊
: ETL 还是可以 用Hadoop ego, spark sql 还比较新。

z****e
发帖数: 54598
8
可能hdfs也值得带走吧
hbase就算了吧,不太想用
postgre+cassandra+flink
应该可以满足绝大多数需要了
flink可以替换掉yarn, spark, storm & hdmr
cassandra,postgre可以替换掉hbase,mongo
剩下的交给vert.x
酱紫大概用4-5个框架,就可以解决几乎所有目前已知需求
sql/db, nosql/batch, streaming, script, web, web service, thread pool etc.
如果将来有一个vert.x based & flink-like system
而非akka based systems(spark&flink)
那就是一个终极解决方案,要有人这么搞就太好了
话说nosql真麻烦啊
一般db的话,一个jdbc就搞掂了,顶多说异步的话,需要启一个worker
但是nosql还要折腾mr,yarn, spark, flink这些,麻烦不少
a*****s
发帖数: 1121
9
资源调度这一块需要有一个吧,
资源调度角度讲,YARN是global scheduler,上千台的server可以总体调度;slider加
入以后,你可以在YARN上运行任何daemon,也就是说,你可以在一个datacenter运行你
想要的所有framework,资源调度由yarn来帮你总体处理。YARN现在也支持docker
container,加上label的功能,很容易实现multi-tenent,Altiscale这方面做的不错
,已经有上千个vm的production cluster用docker on yarn
mesos是分布式调度,比较小众,貌似只有twitter在用,俺们组的一个傻逼本科劳模天
天吹嘘
多好多好。
分布式文件系统需要有一个吧,HDFS时鼻祖,由很多变种,但是都支持HDFS的原生API。
大公司甚至国家之间,拼的是系统,上万台server的data center是需要经得起折腾的
系统,对于小公司,那就另说了。不见得需要这么robust的组件。
z****e
发帖数: 54598
10
上千台server这个数量级不是随便一个公司都能达到的
大部分专注于某些领域的公司
就算做到global,也不用上千个nodes那么夸张
我以前呆的几个公司,大部分4-8个nodes的cluster可以支撑起一个系统
分成不同系统就是了,系统比较多,上百个系统都有
极少说单一系统要爆上千个nodes的
所以这种搞法本身就有些小众了

API。

【在 a*****s 的大作中提到】
: 资源调度这一块需要有一个吧,
: 资源调度角度讲,YARN是global scheduler,上千台的server可以总体调度;slider加
: 入以后,你可以在YARN上运行任何daemon,也就是说,你可以在一个datacenter运行你
: 想要的所有framework,资源调度由yarn来帮你总体处理。YARN现在也支持docker
: container,加上label的功能,很容易实现multi-tenent,Altiscale这方面做的不错
: ,已经有上千个vm的production cluster用docker on yarn
: mesos是分布式调度,比较小众,貌似只有twitter在用,俺们组的一个傻逼本科劳模天
: 天吹嘘
: 多好多好。
: 分布式文件系统需要有一个吧,HDFS时鼻祖,由很多变种,但是都支持HDFS的原生API。

a*****s
发帖数: 1121
11
哎,很不幸,俺去的第一家公司就拥有世界上最大的hadoop cluster,

【在 z****e 的大作中提到】
: 上千台server这个数量级不是随便一个公司都能达到的
: 大部分专注于某些领域的公司
: 就算做到global,也不用上千个nodes那么夸张
: 我以前呆的几个公司,大部分4-8个nodes的cluster可以支撑起一个系统
: 分成不同系统就是了,系统比较多,上百个系统都有
: 极少说单一系统要爆上千个nodes的
: 所以这种搞法本身就有些小众了
:
: API。

r********n
发帖数: 7441
12
大的 dc 1000台机器只够放个角落

【在 z****e 的大作中提到】
: 上千台server这个数量级不是随便一个公司都能达到的
: 大部分专注于某些领域的公司
: 就算做到global,也不用上千个nodes那么夸张
: 我以前呆的几个公司,大部分4-8个nodes的cluster可以支撑起一个系统
: 分成不同系统就是了,系统比较多,上百个系统都有
: 极少说单一系统要爆上千个nodes的
: 所以这种搞法本身就有些小众了
:
: API。

r********n
发帖数: 7441
13
大的 dc 1000台机器只够放个角落

【在 z****e 的大作中提到】
: 上千台server这个数量级不是随便一个公司都能达到的
: 大部分专注于某些领域的公司
: 就算做到global,也不用上千个nodes那么夸张
: 我以前呆的几个公司,大部分4-8个nodes的cluster可以支撑起一个系统
: 分成不同系统就是了,系统比较多,上百个系统都有
: 极少说单一系统要爆上千个nodes的
: 所以这种搞法本身就有些小众了
:
: API。

1 (共1页)
进入Programming版参与讨论
相关主题
Spark已经out了,能跳船的赶快问二爷一个题外话
Hadoop/HBase/HDFS三驾马车过时了吗?Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
如何提高Spark在Yarn上的内存使用率Hadoop 和Python的数据分析包哪个更值得学习?
大牛能不能讨论下cassandra, Hbase, MongoDB的对比Spark + C*
搞不懂为什么大牛说Hbase不如C*?学scala和spark需要什么pre req?
关于 SPARK, 问二爷peking2 和其他大牛一问题试了下spark,不过如此啊
Flink Sparks Next Wave of Distributed Data ProcessingTime series big data大家觉得怎么存储比较好?
MapReduce 的思想是怎么发明的?学Hadoop还是spark
相关话题的讨论汇总
话题: flink话题: yarn话题: hadoop话题: spark话题: cassandra