由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 赵老师讲讲flink
相关主题
spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧?spark contributors
Spark已经out了,能跳船的赶快Flink可以contribute
scala看来也就这样了感觉flink出来之后,hadoop就显得不怎么再需要了
看了flink,不能不说有点小期待搞不懂为什么大牛说Hbase不如C*?
Flink Sparks Next Wave of Distributed Data ProcessingIBM is all into Spark
大家用scala都写什么?MapReduce 的思想是怎么发明的?
scala 到底适合不适合写大系统?问卷,2016你最想学习的一门技术
说道micro services.vert.x有什么长处呢?有人看好flink和storm吗
相关话题的讨论汇总
话题: flink话题: batch话题: spark话题: framework话题: storm
进入Programming版参与讨论
1 (共1页)
d******e
发帖数: 2265
1
Flink flips this on its head. Whereas Spark is a batch processing framework
that can approximate stream processing, Flink is primarily a stream
processing framework that can look like a batch processor. Immediately you
get the benefit of being able to use the same algorithms in both streaming
and batch modes (exactly as you do in Spark), but you no longer have to turn
to a technology like Apache Storm if you require low-latency responsiveness
. You get all you need in one framework, without the overhead of programming
and maintaining a separate cluster with a different API.
最近一直在找一种batch processor. 需要可以并行处理大量事务。我说事务而不是数
据。因为,在处理的过程中需要查询各种http microservice. spark看了半天文档和各
种例子。貌似进入rdd后就没法扩展了。
akka stream就是几个actor串起来,虽然pipeline起来了,但是并发木有啊。如果我用
n条pipeleine,这个他们做优化好像完全不对劲了。而且这个和我用fork join pool自
己写的异步程序区别不大。
貌似现在没有一个batch + pipeline的batch processor.而且不是面相单纯数据处理
而是数据和各种查询混杂的framework.
不知道flink或者storm那个更合适这种情景。
z*******3
发帖数: 13709
2
flink还没有成熟啊,现在用flink也不合适
storm其实也是一个chain/pipline
如果用storm的话,需要自己做adapter,集成storm&hadoop/c* etc.
如果不怕将来改代码的话,上flink也没啥大不了
就是万一出现什么api的改动,将来要重构代码会很烦
如果不是为了nosql考虑的话
java8自己有stream api
rxjava也有stream,还有scalaz这些
用这些自己裸写也没啥大不了的
f********x
发帖数: 99
3
楼主的需求太模糊,能否详细描述一下。Flink的优势在于batch processing over
stream 和 pipelined parallelism/processing。下面是几个典型应用场景 :
1. 无线运营商 Bouygues Telecom (并行处理大量事务)
http://data-artisans.com/flink-at-bouygues.html
2. 更多案例:
http://www.slideshare.net/sbaltagi/overview-of-apacheflinkbysli

framework
turn
responsiveness
programming

【在 d******e 的大作中提到】
: Flink flips this on its head. Whereas Spark is a batch processing framework
: that can approximate stream processing, Flink is primarily a stream
: processing framework that can look like a batch processor. Immediately you
: get the benefit of being able to use the same algorithms in both streaming
: and batch modes (exactly as you do in Spark), but you no longer have to turn
: to a technology like Apache Storm if you require low-latency responsiveness
: . You get all you need in one framework, without the overhead of programming
: and maintaining a separate cluster with a different API.
: 最近一直在找一种batch processor. 需要可以并行处理大量事务。我说事务而不是数
: 据。因为,在处理的过程中需要查询各种http microservice. spark看了半天文档和各

d******e
发帖数: 2265
4
我们轻量级的,不用上hadoop.
现在裸写的都是类似。
getSeed.map{
some computation}
map{
some computation by asking external service}
map{
other compuation}
map{other external services}
filter.filter.reduce_by_key.report or save.

【在 z*******3 的大作中提到】
: flink还没有成熟啊,现在用flink也不合适
: storm其实也是一个chain/pipline
: 如果用storm的话,需要自己做adapter,集成storm&hadoop/c* etc.
: 如果不怕将来改代码的话,上flink也没啥大不了
: 就是万一出现什么api的改动,将来要重构代码会很烦
: 如果不是为了nosql考虑的话
: java8自己有stream api
: rxjava也有stream,还有scalaz这些
: 用这些自己裸写也没啥大不了的

l*******m
发帖数: 1096
5
spark应该没问题

【在 d******e 的大作中提到】
: 我们轻量级的,不用上hadoop.
: 现在裸写的都是类似。
: getSeed.map{
: some computation}
: map{
: some computation by asking external service}
: map{
: other compuation}
: map{other external services}
: filter.filter.reduce_by_key.report or save.

d******e
发帖数: 2265
6
先顶,晚上回来仔细看。

【在 f********x 的大作中提到】
: 楼主的需求太模糊,能否详细描述一下。Flink的优势在于batch processing over
: stream 和 pipelined parallelism/processing。下面是几个典型应用场景 :
: 1. 无线运营商 Bouygues Telecom (并行处理大量事务)
: http://data-artisans.com/flink-at-bouygues.html
: 2. 更多案例:
: http://www.slideshare.net/sbaltagi/overview-of-apacheflinkbysli
:
: framework
: turn
: responsiveness

z*******3
发帖数: 13709
7

先区分是不是reactive
reactive最快最有效率,来一个就处理一个
vert.x的是rxjava,天生就是reactive
akka和storm需要通过插件来改成reactive
flink的streaming目前是window&trigger,并不是reactive的
也不是最快的,但是比spark的microbatch要强一点点
跟不改reactive的storm类似
spark的是microbatch
如果要做成reactive的话
第一步改成getSeed.subscribe(datasource)
然后datasource.publish之后,就自动启动这一套逻辑
akka就可以publish,vert.x就可以subscribe akka

【在 d******e 的大作中提到】
: 我们轻量级的,不用上hadoop.
: 现在裸写的都是类似。
: getSeed.map{
: some computation}
: map{
: some computation by asking external service}
: map{
: other compuation}
: map{other external services}
: filter.filter.reduce_by_key.report or save.

z*******3
发帖数: 13709
8
一般streaming的datasource都是kafka之类的
或者是web service,jms这些
hdfs等persistence不太强调streaming
1 (共1页)
进入Programming版参与讨论
相关主题
有人看好flink和storm吗Flink Sparks Next Wave of Distributed Data Processing
golang值得一学吗?大家用scala都写什么?
懂akka的大牛说说scala 到底适合不适合写大系统?
这里 大大牛多久学会spark?说道micro services.vert.x有什么长处呢?
spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧?spark contributors
Spark已经out了,能跳船的赶快Flink可以contribute
scala看来也就这样了感觉flink出来之后,hadoop就显得不怎么再需要了
看了flink,不能不说有点小期待搞不懂为什么大牛说Hbase不如C*?
相关话题的讨论汇总
话题: flink话题: batch话题: spark话题: framework话题: storm