感觉flink出来之后，hadoop就显得不怎么再需要了 - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

相关主题
● 搞不懂为什么大牛说Hbase不如C*?	● 学scala和spark需要什么pre req?
● 关于 SPARK, 问二爷peking2 和其他大牛一问题	● 试了下spark，不过如此啊
● Flink Sparks Next Wave of Distributed Data Processing	● Time series big data大家觉得怎么存储比较好？
● MapReduce 的思想是怎么发明的？	● 学Hadoop还是spark
● 问二爷一个题外话	● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？
● Hadoop 和Python的数据分析包哪个更值得学习？	● 这种情况该用那种big data tool？
● Spark + C*	● Spark已经out了，能跳船的赶快

相关话题的讨论汇总
话题: flink话题: yarn话题: hadoop话题: spark话题: cassandra

进入Programming版参与讨论

1

(共1页)

z****e 发帖数: 54598	1 现在hadoop eco里面有啥值得留恋的？我就觉得cassandra不错，值得带走其他的pig，hive啥的，也就那么一回事 spark已经收割了一轮了，之后flink出来之后如果再收割一轮也就没啥剩下的了？前几年写的系统很快又要凹凸了，哎话说回来，对flink还是充满着期待啊 datastream+dataset模式比较符合人的本能设计
c*******9 发帖数: 9032	2 database用什么好？【在 z****e 的大作中提到】 : 现在hadoop eco里面有啥值得留恋的？ : 我就觉得cassandra不错，值得带走 : 其他的pig，hive啥的，也就那么一回事 : spark已经收割了一轮了，之后flink出来之后如果再收割一轮 : 也就没啥剩下的了？ : 前几年写的系统很快又要凹凸了，哎 : 话说回来，对flink还是充满着期待啊 : datastream+dataset模式比较符合人的本能设计
y**********u 发帖数: 6366	3 what Cassandra的性能还不是太好吧【在 z****e 的大作中提到】 : 现在hadoop eco里面有啥值得留恋的？ : 我就觉得cassandra不错，值得带走 : 其他的pig，hive啥的，也就那么一回事 : spark已经收割了一轮了，之后flink出来之后如果再收割一轮 : 也就没啥剩下的了？ : 前几年写的系统很快又要凹凸了，哎 : 话说回来，对flink还是充满着期待啊 : datastream+dataset模式比较符合人的本能设计
z****e 发帖数: 54598	4 postgre 如果对mysql实在是舍不得可以用mariadb 【在 c*******9 的大作中提到】 : database用什么好？
z****e 发帖数: 54598	5 找不到更好的了，要不你说一个【在 y**********u 的大作中提到】 : what : Cassandra的性能还不是太好吧
n*****3 发帖数: 1584	6 yarn 很好，要用啊 ETL 还是可以用Hadoop ego， spark sql 还比较新。【在 z****e 的大作中提到】 : 现在hadoop eco里面有啥值得留恋的？ : 我就觉得cassandra不错，值得带走 : 其他的pig，hive啥的，也就那么一回事 : spark已经收割了一轮了，之后flink出来之后如果再收割一轮 : 也就没啥剩下的了？ : 前几年写的系统很快又要凹凸了，哎 : 话说回来，对flink还是充满着期待啊 : datastream+dataset模式比较符合人的本能设计
z****e 发帖数: 54598	7 etl用datastream，这个是最值得注意的部分啊要不然就用spark了 sql用table api，这个纯粹是脚本引擎这个如果不是只懂sql的话，不用也没啥大不了的反正我感觉大部分dev对于sql都不是特别热爱跟js差不多，多数都是一种够用便可的态度 yarn跟dataset也就是batch processing 也就是spark，flink这些几乎是直接竞争关系虽说这两个都可以over yarn，但是貌似不用yarn也没啥大不了的好像还更快一点，除非要用hpc这些，那yarn会比较方便【在 n*****3 的大作中提到】 : yarn 很好，要用啊 : ETL 还是可以用Hadoop ego， spark sql 还比较新。
z****e 发帖数: 54598	8 可能hdfs也值得带走吧 hbase就算了吧，不太想用 postgre+cassandra+flink 应该可以满足绝大多数需要了 flink可以替换掉yarn, spark, storm & hdmr cassandra，postgre可以替换掉hbase，mongo 剩下的交给vert.x 酱紫大概用4-5个框架，就可以解决几乎所有目前已知需求 sql/db, nosql/batch, streaming, script, web, web service, thread pool etc. 如果将来有一个vert.x based & flink-like system 而非akka based systems(spark&flink) 那就是一个终极解决方案，要有人这么搞就太好了话说nosql真麻烦啊一般db的话，一个jdbc就搞掂了，顶多说异步的话，需要启一个worker 但是nosql还要折腾mr，yarn, spark, flink这些，麻烦不少
a*****s 发帖数: 1121	9 资源调度这一块需要有一个吧，资源调度角度讲，YARN是global scheduler，上千台的server可以总体调度；slider加入以后，你可以在YARN上运行任何daemon，也就是说，你可以在一个datacenter运行你想要的所有framework，资源调度由yarn来帮你总体处理。YARN现在也支持docker container，加上label的功能，很容易实现multi－tenent，Altiscale这方面做的不错，已经有上千个vm的production cluster用docker on yarn mesos是分布式调度，比较小众，貌似只有twitter在用，俺们组的一个傻逼本科劳模天天吹嘘多好多好。分布式文件系统需要有一个吧，HDFS时鼻祖，由很多变种，但是都支持HDFS的原生API。大公司甚至国家之间，拼的是系统，上万台server的data center是需要经得起折腾的系统，对于小公司，那就另说了。不见得需要这么robust的组件。
z****e 发帖数: 54598	10 上千台server这个数量级不是随便一个公司都能达到的大部分专注于某些领域的公司就算做到global，也不用上千个nodes那么夸张我以前呆的几个公司，大部分4-8个nodes的cluster可以支撑起一个系统分成不同系统就是了，系统比较多，上百个系统都有极少说单一系统要爆上千个nodes的所以这种搞法本身就有些小众了 API。【在 a*****s 的大作中提到】 : 资源调度这一块需要有一个吧， : 资源调度角度讲，YARN是global scheduler，上千台的server可以总体调度；slider加 : 入以后，你可以在YARN上运行任何daemon，也就是说，你可以在一个datacenter运行你 : 想要的所有framework，资源调度由yarn来帮你总体处理。YARN现在也支持docker : container，加上label的功能，很容易实现multi－tenent，Altiscale这方面做的不错 : ，已经有上千个vm的production cluster用docker on yarn : mesos是分布式调度，比较小众，貌似只有twitter在用，俺们组的一个傻逼本科劳模天 : 天吹嘘 : 多好多好。 : 分布式文件系统需要有一个吧，HDFS时鼻祖，由很多变种，但是都支持HDFS的原生API。
a*****s 发帖数: 1121	11 哎，很不幸，俺去的第一家公司就拥有世界上最大的hadoop cluster，【在 z****e 的大作中提到】 : 上千台server这个数量级不是随便一个公司都能达到的 : 大部分专注于某些领域的公司 : 就算做到global，也不用上千个nodes那么夸张 : 我以前呆的几个公司，大部分4-8个nodes的cluster可以支撑起一个系统 : 分成不同系统就是了，系统比较多，上百个系统都有 : 极少说单一系统要爆上千个nodes的 : 所以这种搞法本身就有些小众了 : : API。
r********n 发帖数: 7441	12 大的 dc 1000台机器只够放个角落【在 z****e 的大作中提到】 : 上千台server这个数量级不是随便一个公司都能达到的 : 大部分专注于某些领域的公司 : 就算做到global，也不用上千个nodes那么夸张 : 我以前呆的几个公司，大部分4-8个nodes的cluster可以支撑起一个系统 : 分成不同系统就是了，系统比较多，上百个系统都有 : 极少说单一系统要爆上千个nodes的 : 所以这种搞法本身就有些小众了 : : API。
r********n 发帖数: 7441	13 大的 dc 1000台机器只够放个角落【在 z****e 的大作中提到】 : 上千台server这个数量级不是随便一个公司都能达到的 : 大部分专注于某些领域的公司 : 就算做到global，也不用上千个nodes那么夸张 : 我以前呆的几个公司，大部分4-8个nodes的cluster可以支撑起一个系统 : 分成不同系统就是了，系统比较多，上百个系统都有 : 极少说单一系统要爆上千个nodes的 : 所以这种搞法本身就有些小众了 : : API。

1

(共1页)

进入Programming版参与讨论

相关主题
● Spark已经out了，能跳船的赶快	● 问二爷一个题外话
● Hadoop/HBase/HDFS三驾马车过时了吗？	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 如何提高Spark在Yarn上的内存使用率	● Hadoop 和Python的数据分析包哪个更值得学习？
● 大牛能不能讨论下cassandra， Hbase， MongoDB的对比	● Spark + C*
● 搞不懂为什么大牛说Hbase不如C*?	● 学scala和spark需要什么pre req?
● 关于 SPARK, 问二爷peking2 和其他大牛一问题	● 试了下spark，不过如此啊
● Flink Sparks Next Wave of Distributed Data Processing	● Time series big data大家觉得怎么存储比较好？
● MapReduce 的思想是怎么发明的？	● 学Hadoop还是spark

相关话题的讨论汇总
话题: flink话题: yarn话题: hadoop话题: spark话题: cassandra

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)