第2页 - 关于flink的讨论汇总 - 话题女王

z****e
发帖数: 54598

hadoop的复杂度比database低不少
写database的阿三老中都没几个，但是做dba的阿三乌央乌央
db就是写起来难，用起来简单，big data那些反过来
nosql写起来简单，用起来越来越复杂
spark就是代表，以后还有flink这些
所以简单的部分，dba，nosql，阿三都乌央乌央
反过来，难的部分，spark这些，阿三就少，造db时代老中cs不行
现在spark时代，老中二代出现了，很多abc之类的
没了这个门槛，也就更容易投入其中
我觉得老中要是能做spark这些，还是要尽力去做，这代表了future
当然工作首先为了生活，妹子先把结婚生娃这种事摆前面
有了家庭才有生活，工作不是生活

z****e
发帖数: 54598

来自主题: JobHunting版 - full stack track 和 backend track 哪个更有前途？

如果是backend的话
java -> tomcat/jdbc/db(sql) -> spring/hibernate -> nosql/spark/flink/lucene
-> vert.x/netty/core java
差不多酱紫，虽然最后一步比倒数第二步数学要容易点，但是更迟出来
所以如果是学习的话，那就把最后两个颠倒一下
到了spark之后，就明显感觉数学要求陡然升高，高等数学就开始来了
第一步就是线性代数
一般的web也就是到tomcat这个level吧
很多full stack其实就是front end
无非php -> ror -> node酱紫一路过来
除了web还是web，无非换个写法而已，没啥大区别
真的full stack应该从swift -> java，像搞tableau/palantir一样搞法
那才叫真正的full stack，如果搞这种的话，java就直接跳到最后一步了
至少上netty了，现在可以上vert.x
netty作者是韩国人，也是游戏爱好者，本来初衷就是给网游用的
netty那几个core developers，基本上都在各个大公司做顾问... 阅读全帖

h*d
发帖数: 19309

来自主题: JobHunting版 - full stack track 和 backend track 哪个更有前途？

你自己扯的你都不记得了? cql那货返回点数据也就罢了，处理数据还是算了。

http://www.mitbbs.com/article_t/JobHunting/33063511.html
发信人: zhaoce (米高蜥蜴), 信区: JobHunting
标题: Re: full stack track 和 backend track 哪个更有前途？
发信站: BBS 未名空间站 (Thu Oct 1 07:59:32 2015, 美东)
如果是backend的话
java -> tomcat/jdbc/db(sql) -> spring/hibernate -> nosql/spark/flink/lucene
-> vert.x/netty/core java
差不多酱紫，虽然最后一步比倒数第二步数学要容易点，但是更迟出来
所以如果是学习的话，那就把最后两个颠倒一下
到了spark之后，就明显感觉数学要求陡然升高，高等数学就开始来了
第一步就是线性代数
一般的web也就是到tomcat这个level吧
很多full stack其实就是front end
无非php ->... 阅读全帖

z****e
发帖数: 54598

来自主题: JobHunting版 - 想找Java后端工作该做些什么project来学相关技术？e.g. Spring/JAX-RS?

学习不要纠结于细节
要明白为什么
j2ee虽然东西看着多
但是其实大同小异
就像di，你懂了spring之后
其他所有的ejb container的di
都是一样的，config不一样而已了
web service也是一样的
你理解了原理，管他用的是什么
不仅仅是Jersey
顺便，web service support已经是j2ee的一部分了
在里面叫做
Java API for RESTful Web Services (JAX-RS)
spring的di是cdi，应该是api的一部分了
javax.enterprise.inject.*
hibernate是orm，也就是jpa
Java Persistence API
除了web部分，其他了解了解，也没啥难的
不过现在比较流行的是非主流的东西
比如cassandra, elastic search, hadoop, spark, flink这些
都不是j2ee标准，j2ee不管persistence，只负责定义中间的container
当然我最看好的还是vert.x
其实这些东西到最后都是理论，细节和实现不重要
明白了理论之后，... 阅读全帖

发帖数: 1

来自主题: JobHunting版 - 阿里招聘PM、SDE

Product Management
职位要求：
1. Experiences in online advertising or computational internet marketing is
preferred
2. 3+ years experiences as product/program manager is preferred
3. Self-driven, result-oriented, innovative and collaborative
4. Good communication and presentation ability
5. Knowledge of large platform, statistics and machine learning is a plus
Senior Staff Engineer-Distributed System
职位要求：
1. solid computer science background, good understanding in data structure
and algorithms
2. pr... 阅读全帖

发帖数: 1

来自主题: JobHunting版 - [转]腾讯云计算全球华人求贤 (转载)

【以下文字转载自 Returnee 讨论区】
发信人: jason2016 (), 信区: Returnee
标题: [转]腾讯云计算全球华人求贤
发信站: BBS 未名空间站 (Mon Jul 25 03:11:38 2016, 美东)
以下为重要紧急职位期望Master 毕业5年，PhD毕业3年以及以上，具体情况可以case
by case！
资深岗位关键词
分布式存储研发专家块存储、冷数据存储、数据库存储，集群存储
虚拟网络研发专家 Linux下的网络、SDN、Overlay网络设计
云业务系统运维专家虚拟化、云计算容器，微服务（mangodb/redis/cassandra）
nosql存储
网络运维专家机房网络、VPC、负载均衡、trouble shooting
资深研发架构师网络安全、存储系统开发、虚拟化技术、移动应用等技
术经验优先
资深数据库专家 Mysql/MongoDB/PostgreSql/I... 阅读全帖

发帖数: 1

来自主题: JobHunting版 - [转]Alibaba全球招华人技术牛人！！！ (转载)

【以下文字转载自 Returnee 讨论区】
发信人: jason2016 (), 信区: Returnee
标题: [转]Alibaba全球招华人技术牛人！！！
发信站: BBS 未名空间站 (Mon Jul 25 03:10:51 2016, 美东)
7月底阿里巴巴集团CTO Jianfeng Zhang会带领技术团队奔赴美国西雅图和硅谷做技术
分享和招聘，欢迎各位同胞们联系我
以下为重要紧急职位期望Master 毕业5年，PhD毕业3年以及以上，具体情况可以case
by case！
工程业务团队资深岗位关键词
会员平台资深产品专家海外经历、用户产品
技术质量资深测试架构师技术质量、软件测试、测试
框架
技术质量资深工程效能专家工程效能、内部协同、效率提升
创新业务&评价资深技术专家信用评... 阅读全帖

N*****8
发帖数: 253

来自主题: JobHunting版 - [转] 阿里巴巴招聘 (转载)

【以下文字转载自 Returnee 讨论区】
发信人: Nicam08 (Nicam), 信区: Returnee
标题: [转] 阿里巴巴招聘
发信站: BBS 未名空间站 (Wed Nov 23 13:57:21 2016, 美东)
Alibaba全球找华人技术牛人！！！
11月底阿里巴巴集团基础架构事业群VP会带领技术团队奔赴美国硅谷做技术招聘，欢迎
各位同胞们联系我
以下重要紧急职位必要要求：PHD毕业至少3年，Master毕业至少五年以上工作经验，年
龄在70-85年出生为佳
我的联系邮a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="aa4e09109b929c9b9c9899999b9c99ea9b9c9984c9c5c7">[email protected]/* */ 微信：18616233163 QQ：2095226802
Base：杭州/硅谷圣马特奥职位
基础架构事业群-资深专家-kernel OS kernel，filesys... 阅读全帖

d****n
发帖数: 12461

来自主题: JobHunting版 - Linkedin 这个大组好不好

这块大的框架快做完了，细节有不少。框架无非是kappa架构，老马车storm, samza，
新马车apex, beam，flink，heron和kafka streams，其实大同小异已经开始争夺niche
市场了。单从Linkedin来说恐怕业务比较单一没太多新东西，单纯做流处理和etl已经
没啥好做了。但是微软和google这些带人工智能的我觉得这只是第一步，所以能做的还
不少。
当然学这些要比说自己做大数据的要好。

S*******w
发帖数: 24236

来自主题: JobHunting版 - Databricks 这个公司什么情况？

这边有open source的flink和它竞争，另一边还有狗狗的dataflow。
founder赚点钱可以想进去喝汤的打工仔比较困难了。

发帖数: 1

来自主题: JobHunting版 - 阿里巴巴西雅图地区招人

阿里巴巴Blink 组 (see http://www.dataversity.net/year-blink-alibaba/ and http://mp.weixin.qq.com/s/GTN7ECCNcc2lB-Dq02ElGg for some basic background information)在西雅图地区招有经验的工程师。有兴趣者，请送简历到[email protected]。如有问题，也可send email using the same email address.
下面是job description：
大数据计算平台研发专家，基于Hadoop开源生态，结合阿里巴巴电商业务场景，研发
阿里巴巴新一代大数据计算平台，包括计算引擎、分布式存储和资源调度等核心技术，
统一支持批量、实时、SQL和机器学习等计算需求，重点支持阿里集团搜索，推荐等核
心业务，并在集团范围内提供技术输出和平台支持。
职位描述
* 三年以上工作经验（工作地点： Bellevue，WA - 位于西雅图以东， about 10
miles east of Seattle）
* 具备扎实... 阅读全帖

发帖数: 1

来自主题: JobHunting版 - 阿里巴巴西雅图地区招人

j****g
发帖数: 17

来自主题: JobMarket版 - 腾讯云计算全球华人求贤

职位期望Master 毕业5年，PhD毕业3年以及以上，具体情况可以case by case！
资深岗位关键词
分布式存储研发专家块存储、冷数据存储、数据库存储，集群存储
虚拟网络研发专家 Linux下的网络、SDN、Overlay网络设计
云业务系统运维专家虚拟化、云计算容器，微服务（mangodb/redis/cassandra）
nosql存储
网络运维专家机房网络、VPC、负载均衡、trouble shooting
资深研发架构师网络安全、存储系统开发、虚拟化技术、移动应用等技
术经验优先
资深数据库专家 Mysql/MongoDB/PostgreSql/InnoDB/NoSql/DynamoDB/
AWS-S3
资深分布式存储专家 MangoDB/Redis/Cassandra等nosql存储
资深大数据工程专家 Spark/Flink/Hadoop/Yarn/Hive/Storm、开源、实时... 阅读全帖

发帖数: 1

来自主题: JobMarket版 - 阿里巴巴西雅图地区招人

发帖数: 1

来自主题: JobMarket版 - 招聘职位：金融数据工程师（弘则研究-股票策略,工作地点上海陆家嘴）

招聘职位：金融数据工程师（弘则研究-股票策略,工作地点上海陆家嘴）
基本要求：
1、本科及以上学历，计算机、物理、数学专业优先，若技术较强可放宽专业要求；
2、精通至少一种编程语言：C/Python/JavaScript/R等，数据可视化或前端开发经验者
优先；
3、熟练关系数据库SQL编写及调优；
4、对中国金融市场有浓厚兴趣，学习能力强，有良好的团队意识，性格开朗。
加分项：
1、对数据敏感，在算法、机器/深度学习上有比较清晰的了解；
2、熟悉大数据处理平台 Hadoop，熟悉 Storm/Spark/Flink 其中一种 Stream 处理技
术；
3、本科名校，有海外学习/从业经历。
申请方式：发送个人CV及可能的工作学习作品（Github、个人主页等，请勿发送获奖证
书及类似文件）到[email protected]，希望尽快到岗。
公司简介：
弘则弥道（上海）投资咨询有限公司创立于2015年4月，公司目前主要业务为投资咨询
。公司研究领域覆盖中国、美国、欧元区和主要新兴市场经济体的股票、债券、外汇以
及大宗商品等大类资产，为全球和中国最负盛名的金融机构投资者提供宏... 阅读全帖

发帖数: 1

来自主题: Returnee版 - [转]Alibaba全球招华人技术牛人！！！

7月底阿里巴巴集团CTO Jianfeng Zhang会带领技术团队奔赴美国西雅图和硅谷做技术
分享和招聘，欢迎各位同胞们联系我
以下为重要紧急职位期望Master 毕业5年，PhD毕业3年以及以上，具体情况可以case
by case！
工程业务团队资深岗位关键词
会员平台资深产品专家海外经历、用户产品
技术质量资深测试架构师技术质量、软件测试、测试
框架
技术质量资深工程效能专家工程效能、内部协同、效率提升
创新业务&评价资深技术专家信用评价、业务架构
数据服务资深算法专家推荐系统、广告系统、机
器学习，VR等
数据服务资深数据科学家 NLP、知识图谱等
数据服务 ... 阅读全帖

发帖数: 1

来自主题: Returnee版 - [转]腾讯云计算全球华人求贤

以下为重要紧急职位期望Master 毕业5年，PhD毕业3年以及以上，具体情况可以case
by case！
资深岗位关键词
分布式存储研发专家块存储、冷数据存储、数据库存储，集群存储
虚拟网络研发专家 Linux下的网络、SDN、Overlay网络设计
云业务系统运维专家虚拟化、云计算容器，微服务（mangodb/redis/cassandra）
nosql存储
网络运维专家机房网络、VPC、负载均衡、trouble shooting
资深研发架构师网络安全、存储系统开发、虚拟化技术、移动应用等技
术经验优先
资深数据库专家 Mysql/MongoDB/PostgreSql/InnoDB/NoSql/DynamoDB/
AWS-S3
资深分布式存储专家 MangoDB/Redis/Cassandra等nosql存储
资深大数据工程专家 Spark/Flink/Hadoop/Yarn/Hive/Stor... 阅读全帖

发帖数: 1

来自主题: Seattle版 - 阿里巴巴西雅图办公室招人

f******2
发帖数: 2455

来自主题: Programming版 - Spark已经out了，能跳船的赶快

首先，本文不不是说Spark会死，而是说它的衰落会比预想的还有快，具体地说就是比
Hadoop被人抛弃还快（<5年，Hadoop的上升期）
Spark的问题就是核心引擎落后，核心部分就是个大的in－memory版Hadoop，完全抛弃
数据酷领域多年积累。这后面有很多问题暴露出来，例如，SparkStreaming就没法做真
正意义上的流处理。
如果没有VC的投入，上面这些问题可能还有机会解决（Berkeley从来不缺聪明的年轻人
，更何况是站在Spark经验教训的肩膀上作一些改善），但是现在的Spark已经是被资本
的助燃器推上轨道的火箭了（而且是巨型资本，换句话说就是重型发动机），没有办法
停下来思考什么是正确轨道，而是在自己的轨道冲下去。
德国的一群年轻人在一个教授（有IBM数据酷的长期背景）的带领下搞了个Flink，社区
非常活跃，而且成立了公司运作，估计会成为ElasticSearch这样一个欧洲发源，征服
美国的下一个大数据新宠。
立此存照。

h****r
发帖数: 2056

来自主题: Programming版 - Spark已经out了，能跳船的赶快

flink is based on scala as well, which makes its future doubtful.
hope it can be rewritten by c or java.

f******2
发帖数: 2455

来自主题: Programming版 - Spark已经out了，能跳船的赶快

错，flink主要codebase是java，scala那部分是两部分：用户语言binding，akka使用
因为核心是java，给广大java高手提供了广阔天地，大有作为的平台。这对于一个开源
型公司非常重要。因此社区运作好了绝对可以比spark后发先至。
我准备上去修个bug，个contributor当当。象goodbug这样的估计直接就是committer了

d*******r
发帖数: 3299

来自主题: Programming版 - Spark已经out了，能跳船的赶快

flink 广告贴呀, 上 github 看了一眼, 确实主要是 Java 实现的

f******2
发帖数: 2455

来自主题: Programming版 - Spark已经out了，能跳船的赶快

不是广告，看看第21页决定这个架子搭得比spark稳
http://www.slideshare.net/mobile/stephanewen1/apache-flink-over

s*****1
发帖数: 15

来自主题: Programming版 - Spark已经out了，能跳船的赶快

Spark的对手除了Flink，还有Ignite，都在Apache旗下取了个电光石火的名字

B********r
发帖数: 397

来自主题: Programming版 - 天天嚷嚷这个 out 那个out的真是有病

好吧，我火气大了点，不过从来没觉得自己是“专家”，只是觉得这种讨论太没意义，
一天到晚争啥out不out，不如说些实际的该怎么用
你想像对于大部分连hadoop都没开始上手的新人来说，你今天喊一嗓子“hadoop out“
明天一嗓子”spark out“，后天”flink out”，除了误导他们还有啥好处

z****e
发帖数: 54598

来自主题: Programming版 - 有人上Spark用python API的么

准备上flink吧
streaming好像比较热
rxjava什么都在做这一块

z****e
发帖数: 54598

来自主题: Programming版 - 有人上Spark用python API的么

那你们streaming用什么？
spark的stream是micro batch，有些难用的说
不用flink就只有storm了

z****e
发帖数: 54598

来自主题: Programming版 - Flink可以contribute

母鸡
反正都是开源的，互相抄一点很正常
不过80% java vs 80% scala
这个要抄有一定难度
但是如果是用不同语言实现相同逻辑
这个算不算抄袭，那我就不知道了

z****e
发帖数: 54598

来自主题: Programming版 - 看了flink，不能不说有点小期待

batch processing部分跟spark区别不大
但是streaming部分，跟storm是一样的，比spark要好一点
spark目前还只是micro batch，嗯

n****5
发帖数: 81

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

膜拜一下楼上的大牛。请教这新东西层出不穷，各另风骚一两年，新手们看的眼花缭乱
的怎么办？

n****5
发帖数: 81

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

多谢！！！顺便顶贴！

f******2
发帖数: 2455

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

赵老师已经是committer了？赶快上船，把版上的小白兄弟们带入门

Artisans,

z****e
发帖数: 54598

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

当然不是，我现在没工夫搞这些，还是专心搞我自己的东西
你可以去commit代码啊

z****e
发帖数: 54598

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

rdd
stream就是那种连续的，不间断过来的数据
batch就是那种已知边界的数据
spark的streaming只是mincro batch
本质上还是bacth，不是streaming
streaming要求过来一个就处理一个，而且一次就处理一个
这种就是真streaming，如果达不到这种要求，就是伪streaming
microbatch顾名思义，不是这种搞法
streaming的好处显而易见，时效性强，可以很快作出反应
但是坏处也很明显，需要资源比较多
而且从长时间上看，比如处理chunk，总体算下来
还是batch用时比较节省
其实streaming我个人认为并不适合用来做persistance的处理
尤其是file system, db上的数据，我觉得用batch就足够了
streaming用在对付需要短时间处理并反馈的数据
主要是用来处理web上过来的数据，比如video这些
还有tweets，还比如用一个udp socket直接监听一个port就好了
这些用streaming api就非常合理，可以增强客户体验
他们还有第三种api，就是table api，这个... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

stream － storm，rxjava，scalaz这些都可以搞
传统数据仓库的etl也是streaming api的主要应用点
batch - spark, hdmr, hdmr2/yarn 这些都可以搞
这个其实最难搞，统计，线性代数都在这里，但是有些虚
table - database这些，主要是index和transaction
既然有了结构，那么对于精度，自然就有了更高的要求

z****e
发帖数: 54598

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

按照datasources分的话
一般stream api用在网络上过来的数据
比如kafka，比如video，比如etl
这些都是streaming的大户，然后配合reactive
就可以比较迅速地处理数据并反馈
一般batch和table api用在硬盘上读取出来的数据
尤其是你自己系统控制的硬盘上的数据
这种用batch或者table来稿
table针对结构比较完整，精度要求高的数据源
因为精度高，相对要求也高，要求index和transaction
很正常
batch针对结构不完整，精度要求相应可以降低的数据源
比如网页搜索，一般google就反馈给你一个最相似的网页
并不是保证百分百精确，很多时候第一个结果不是你想要的
偶尔还会出现翻了几页才找到，甚至根本找不到的情况
这种情况你只能逼近，完美是不存在滴

z****e
发帖数: 54598

来自主题: Programming版 - fangtuo2 4月份发完那贴之后，进去修了bugs没有？

4月份在忙ios，没怎么看，貌似fangtuo2发了帖说了下flink和sparks
然后又给删了，搞毛，不是说要进去修bugs吗？修了没？
有没有什么体会？出来说说

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

我感觉是rdd这种数据结构限制了他们的发挥
dstream最终还是捆死在rdd上，也就是dstream是rdd的一种
而rdd比较适合dataset，并不十分适合datastream
而spark的基石就是rdd，算法是ml那些，但是数据结构基本上都是rdd
而rdd是为dataset也就是batch处理而设计出来的
为了迁就dataset，硬把datastream的数据结构搞成rdd
这看来不是一个什么很好的选择
当然对于大多数应用来说，micro batch够用
但是总感觉怪怪的，any way，如果flink改掉这个的话
能够结合spark和storm的优点的话，我觉得蛮好
值得一试，比起自己去折腾storm+spark要强
这两个光弄其中一个就已经够呛了

f********x
发帖数: 99

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

SDK开源，Execution engine不会被lockin。Google其实早有预谋去统一这块市场。
Dataflow over Spark:
http://googlecloudplatform.blogspot.com/2015/01/easily-run-data
Dataflow over Flink:
http://googlecloudplatform.blogspot.com/2015/03/announcing-Goog
Genome analysis pipeline over Dataflow:
http://github.com/googlegenomics/dataflow-java

z****e
发帖数: 54598

来自主题: Programming版 - 想山寨palantir了

其实也不会，你看intellij idea就靠着很不错的gui取胜
还有一个就是，大部分软件，尤其是攻城狮用的软件
都比较难用，说白了就是gui比较少，没有特别傻瓜的工具
jira什么就是通过比较傻瓜化的操作占领市场
我考虑的是，把jdbc等操作，给傻瓜化
然后进一步把c*和flink的操作给傻瓜化
最后把vert.x的操作也给傻瓜化
这样一个完整的gui就可以搞出来了
我看了看这些api，应该都不难，因为本身就已经傻瓜化了不少
现在就缺一个gui而已，这个javafx应该问题不大

z****e
发帖数: 54598

来自主题: Programming版 - 想山寨palantir了

集，
山寨他们可以从一些最简单的功能开始
比如可视化db操作，然后可视化flink和spark
因为这种平台软件一般不允许随便修改数据
所以clustering这些用到的概率不大，这就省了不少事
很多时候光count就能有很多应用了
光count的话，我觉得并不需要多复杂的数学
倒是需要对常用工具以及轮子的熟练程度
比如javafx，jdbc，c*的api，etc.
我个人觉得，其实很多攻城狮并不是对于数学有那么深刻的领悟的
例子我就不举了，省得得罪人
很多时候不需要多高深数学，一样可以有利益攫取的

z****e
发帖数: 54598

来自主题: Programming版 - 想山寨palantir了

所以说到底我也需要知道他们这个平台到底在干嘛的嘛
我也没见过，从demo上看，好像都是一些比较傻瓜的应用
我应该能做出来，但是再深入的，我也不知道了
所以我在问palantir的产品到底在做啥，要不然你以为我在干嘛？
另外，我们山寨的路边货呢，不需要做到top1
只需要做到top1的50％，市场前景就很不错了
有人用很容易啊，比如我可以自动生成jdbc连接的java代码啊
而且spark, flink，vert.x这些傻瓜化工具还少，这个能做出来肯定有人用
db的傻瓜化工具比较多，但是多数都不太好用，感觉gui设计得很反人类
还有就是，join这些数据，也是一个很不错的卖点
不过join估计需要server side
我看他们的一个卖点就是join

c*******9
发帖数: 9032

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

database用什么好？

y**********u
发帖数: 6366

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

what
Cassandra的性能还不是太好吧

z****e
发帖数: 54598

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

postgre
如果对mysql实在是舍不得
可以用mariadb

z****e
发帖数: 54598

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

找不到更好的了，要不你说一个

n*****3
发帖数: 1584

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

yarn 很好，要用啊
ETL 还是可以用Hadoop ego， spark sql 还比较新。

a*****s
发帖数: 1121

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

资源调度这一块需要有一个吧，
资源调度角度讲，YARN是global scheduler，上千台的server可以总体调度；slider加
入以后，你可以在YARN上运行任何daemon，也就是说，你可以在一个datacenter运行你
想要的所有framework，资源调度由yarn来帮你总体处理。YARN现在也支持docker
container，加上label的功能，很容易实现multi－tenent，Altiscale这方面做的不错
，已经有上千个vm的production cluster用docker on yarn
mesos是分布式调度，比较小众，貌似只有twitter在用，俺们组的一个傻逼本科劳模天
天吹嘘
多好多好。
分布式文件系统需要有一个吧，HDFS时鼻祖，由很多变种，但是都支持HDFS的原生API。
大公司甚至国家之间，拼的是系统，上万台server的data center是需要经得起折腾的
系统，对于小公司，那就另说了。不见得需要这么robust的组件。

z****e
发帖数: 54598

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

上千台server这个数量级不是随便一个公司都能达到的
大部分专注于某些领域的公司
就算做到global，也不用上千个nodes那么夸张
我以前呆的几个公司，大部分4-8个nodes的cluster可以支撑起一个系统
分成不同系统就是了，系统比较多，上百个系统都有
极少说单一系统要爆上千个nodes的
所以这种搞法本身就有些小众了

API。

a*****s
发帖数: 1121

来自主题: Programming版 - 感觉flink出来之后，hadoop就显得不怎么再需要了

哎，很不幸，俺去的第一家公司就拥有世界上最大的hadoop cluster，

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天