赵老师讲讲flink - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 赵老师讲讲flink

相关主题
● spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？	● spark contributors
● Spark已经out了，能跳船的赶快	● Flink可以contribute
● scala看来也就这样了	● 感觉flink出来之后，hadoop就显得不怎么再需要了
● 看了flink，不能不说有点小期待	● 搞不懂为什么大牛说Hbase不如C*?
● Flink Sparks Next Wave of Distributed Data Processing	● IBM is all into Spark
● 大家用scala都写什么？	● MapReduce 的思想是怎么发明的？
● scala 到底适合不适合写大系统？	● 问卷，2016你最想学习的一门技术
● 说道micro services.vert.x有什么长处呢？	● 有人看好flink和storm吗

相关话题的讨论汇总
话题: flink话题: batch话题: spark话题: framework话题: storm

进入Programming版参与讨论

1

(共1页)

d******e 发帖数: 2265	1 Flink flips this on its head. Whereas Spark is a batch processing framework that can approximate stream processing, Flink is primarily a stream processing framework that can look like a batch processor. Immediately you get the benefit of being able to use the same algorithms in both streaming and batch modes (exactly as you do in Spark), but you no longer have to turn to a technology like Apache Storm if you require low-latency responsiveness . You get all you need in one framework, without the overhead of programming and maintaining a separate cluster with a different API. 最近一直在找一种batch processor. 需要可以并行处理大量事务。我说事务而不是数据。因为，在处理的过程中需要查询各种http microservice. spark看了半天文档和各种例子。貌似进入rdd后就没法扩展了。 akka stream就是几个actor串起来，虽然pipeline起来了，但是并发木有啊。如果我用 n条pipeleine,这个他们做优化好像完全不对劲了。而且这个和我用fork join pool自己写的异步程序区别不大。貌似现在没有一个batch ＋ pipeline的batch processor.而且不是面相单纯数据处理而是数据和各种查询混杂的framework. 不知道flink或者storm那个更合适这种情景。
z*******3 发帖数: 13709	2 flink还没有成熟啊，现在用flink也不合适 storm其实也是一个chain/pipline 如果用storm的话，需要自己做adapter，集成storm&hadoop/c* etc. 如果不怕将来改代码的话，上flink也没啥大不了就是万一出现什么api的改动，将来要重构代码会很烦如果不是为了nosql考虑的话 java8自己有stream api rxjava也有stream，还有scalaz这些用这些自己裸写也没啥大不了的
f********x 发帖数: 99	3 楼主的需求太模糊，能否详细描述一下。Flink的优势在于batch processing over stream 和 pipelined parallelism/processing。下面是几个典型应用场景 : 1. 无线运营商 Bouygues Telecom (并行处理大量事务) http://data-artisans.com/flink-at-bouygues.html 2. 更多案例： http://www.slideshare.net/sbaltagi/overview-of-apacheflinkbysli framework turn responsiveness programming 【在 d******e 的大作中提到】 : Flink flips this on its head. Whereas Spark is a batch processing framework : that can approximate stream processing, Flink is primarily a stream : processing framework that can look like a batch processor. Immediately you : get the benefit of being able to use the same algorithms in both streaming : and batch modes (exactly as you do in Spark), but you no longer have to turn : to a technology like Apache Storm if you require low-latency responsiveness : . You get all you need in one framework, without the overhead of programming : and maintaining a separate cluster with a different API. : 最近一直在找一种batch processor. 需要可以并行处理大量事务。我说事务而不是数 : 据。因为，在处理的过程中需要查询各种http microservice. spark看了半天文档和各
d******e 发帖数: 2265	4 我们轻量级的，不用上hadoop. 现在裸写的都是类似。 getSeed.map{ some computation} map{ some computation by asking external service} map{ other compuation} map{other external services} filter.filter.reduce_by_key.report or save. 【在 z******3 的大作中提到】 : flink还没有成熟啊，现在用flink也不合适 : storm其实也是一个chain/pipline : 如果用storm的话，需要自己做adapter，集成storm&hadoop/c etc. : 如果不怕将来改代码的话，上flink也没啥大不了 : 就是万一出现什么api的改动，将来要重构代码会很烦 : 如果不是为了nosql考虑的话 : java8自己有stream api : rxjava也有stream，还有scalaz这些 : 用这些自己裸写也没啥大不了的
l*******m 发帖数: 1096	5 spark应该没问题【在 d******e 的大作中提到】 : 我们轻量级的，不用上hadoop. : 现在裸写的都是类似。 : getSeed.map{ : some computation} : map{ : some computation by asking external service} : map{ : other compuation} : map{other external services} : filter.filter.reduce_by_key.report or save.
d******e 发帖数: 2265	6 先顶，晚上回来仔细看。【在 f********x 的大作中提到】 : 楼主的需求太模糊，能否详细描述一下。Flink的优势在于batch processing over : stream 和 pipelined parallelism/processing。下面是几个典型应用场景 : : 1. 无线运营商 Bouygues Telecom (并行处理大量事务) : http://data-artisans.com/flink-at-bouygues.html : 2. 更多案例： : http://www.slideshare.net/sbaltagi/overview-of-apacheflinkbysli : : framework : turn : responsiveness
z*******3 发帖数: 13709	7 先区分是不是reactive reactive最快最有效率，来一个就处理一个 vert.x的是rxjava，天生就是reactive akka和storm需要通过插件来改成reactive flink的streaming目前是window&trigger，并不是reactive的也不是最快的，但是比spark的microbatch要强一点点跟不改reactive的storm类似 spark的是microbatch 如果要做成reactive的话第一步改成getSeed.subscribe(datasource) 然后datasource.publish之后，就自动启动这一套逻辑 akka就可以publish，vert.x就可以subscribe akka 【在 d******e 的大作中提到】 : 我们轻量级的，不用上hadoop. : 现在裸写的都是类似。 : getSeed.map{ : some computation} : map{ : some computation by asking external service} : map{ : other compuation} : map{other external services} : filter.filter.reduce_by_key.report or save.
z*******3 发帖数: 13709	8 一般streaming的datasource都是kafka之类的或者是web service，jms这些 hdfs等persistence不太强调streaming

1

(共1页)

进入Programming版参与讨论

相关主题
● 有人看好flink和storm吗	● Flink Sparks Next Wave of Distributed Data Processing
● golang值得一学吗？	● 大家用scala都写什么？
● 懂akka的大牛说说	● scala 到底适合不适合写大系统？
● 这里大大牛多久学会spark?	● 说道micro services.vert.x有什么长处呢？
● spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？	● spark contributors
● Spark已经out了，能跳船的赶快	● Flink可以contribute
● scala看来也就这样了	● 感觉flink出来之后，hadoop就显得不怎么再需要了
● 看了flink，不能不说有点小期待	● 搞不懂为什么大牛说Hbase不如C*?

相关话题的讨论汇总
话题: flink话题: batch话题: spark话题: framework话题: storm

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)