d******e 发帖数: 2265 | 1 Flink flips this on its head. Whereas Spark is a batch processing framework
that can approximate stream processing, Flink is primarily a stream
processing framework that can look like a batch processor. Immediately you
get the benefit of being able to use the same algorithms in both streaming
and batch modes (exactly as you do in Spark), but you no longer have to turn
to a technology like Apache Storm if you require low-latency responsiveness
. You get all you need in one framework, without the overhead of programming
and maintaining a separate cluster with a different API.
最近一直在找一种batch processor. 需要可以并行处理大量事务。我说事务而不是数
据。因为,在处理的过程中需要查询各种http microservice. spark看了半天文档和各
种例子。貌似进入rdd后就没法扩展了。
akka stream就是几个actor串起来,虽然pipeline起来了,但是并发木有啊。如果我用
n条pipeleine,这个他们做优化好像完全不对劲了。而且这个和我用fork join pool自
己写的异步程序区别不大。
貌似现在没有一个batch + pipeline的batch processor.而且不是面相单纯数据处理
而是数据和各种查询混杂的framework.
不知道flink或者storm那个更合适这种情景。 |
z*******3 发帖数: 13709 | 2 flink还没有成熟啊,现在用flink也不合适
storm其实也是一个chain/pipline
如果用storm的话,需要自己做adapter,集成storm&hadoop/c* etc.
如果不怕将来改代码的话,上flink也没啥大不了
就是万一出现什么api的改动,将来要重构代码会很烦
如果不是为了nosql考虑的话
java8自己有stream api
rxjava也有stream,还有scalaz这些
用这些自己裸写也没啥大不了的 |
f********x 发帖数: 99 | 3 楼主的需求太模糊,能否详细描述一下。Flink的优势在于batch processing over
stream 和 pipelined parallelism/processing。下面是几个典型应用场景 :
1. 无线运营商 Bouygues Telecom (并行处理大量事务)
http://data-artisans.com/flink-at-bouygues.html
2. 更多案例:
http://www.slideshare.net/sbaltagi/overview-of-apacheflinkbysli
framework
turn
responsiveness
programming
【在 d******e 的大作中提到】 : Flink flips this on its head. Whereas Spark is a batch processing framework : that can approximate stream processing, Flink is primarily a stream : processing framework that can look like a batch processor. Immediately you : get the benefit of being able to use the same algorithms in both streaming : and batch modes (exactly as you do in Spark), but you no longer have to turn : to a technology like Apache Storm if you require low-latency responsiveness : . You get all you need in one framework, without the overhead of programming : and maintaining a separate cluster with a different API. : 最近一直在找一种batch processor. 需要可以并行处理大量事务。我说事务而不是数 : 据。因为,在处理的过程中需要查询各种http microservice. spark看了半天文档和各
|
d******e 发帖数: 2265 | 4 我们轻量级的,不用上hadoop.
现在裸写的都是类似。
getSeed.map{
some computation}
map{
some computation by asking external service}
map{
other compuation}
map{other external services}
filter.filter.reduce_by_key.report or save.
【在 z*******3 的大作中提到】 : flink还没有成熟啊,现在用flink也不合适 : storm其实也是一个chain/pipline : 如果用storm的话,需要自己做adapter,集成storm&hadoop/c* etc. : 如果不怕将来改代码的话,上flink也没啥大不了 : 就是万一出现什么api的改动,将来要重构代码会很烦 : 如果不是为了nosql考虑的话 : java8自己有stream api : rxjava也有stream,还有scalaz这些 : 用这些自己裸写也没啥大不了的
|
l*******m 发帖数: 1096 | 5 spark应该没问题
【在 d******e 的大作中提到】 : 我们轻量级的,不用上hadoop. : 现在裸写的都是类似。 : getSeed.map{ : some computation} : map{ : some computation by asking external service} : map{ : other compuation} : map{other external services} : filter.filter.reduce_by_key.report or save.
|
d******e 发帖数: 2265 | 6 先顶,晚上回来仔细看。
【在 f********x 的大作中提到】 : 楼主的需求太模糊,能否详细描述一下。Flink的优势在于batch processing over : stream 和 pipelined parallelism/processing。下面是几个典型应用场景 : : 1. 无线运营商 Bouygues Telecom (并行处理大量事务) : http://data-artisans.com/flink-at-bouygues.html : 2. 更多案例: : http://www.slideshare.net/sbaltagi/overview-of-apacheflinkbysli : : framework : turn : responsiveness
|
z*******3 发帖数: 13709 | 7
先区分是不是reactive
reactive最快最有效率,来一个就处理一个
vert.x的是rxjava,天生就是reactive
akka和storm需要通过插件来改成reactive
flink的streaming目前是window&trigger,并不是reactive的
也不是最快的,但是比spark的microbatch要强一点点
跟不改reactive的storm类似
spark的是microbatch
如果要做成reactive的话
第一步改成getSeed.subscribe(datasource)
然后datasource.publish之后,就自动启动这一套逻辑
akka就可以publish,vert.x就可以subscribe akka
【在 d******e 的大作中提到】 : 我们轻量级的,不用上hadoop. : 现在裸写的都是类似。 : getSeed.map{ : some computation} : map{ : some computation by asking external service} : map{ : other compuation} : map{other external services} : filter.filter.reduce_by_key.report or save.
|
z*******3 发帖数: 13709 | 8 一般streaming的datasource都是kafka之类的
或者是web service,jms这些
hdfs等persistence不太强调streaming |