p*****2 发帖数: 21240 | 1 昨天跟几个大牛聊system design,今天发现Spark可以完美解决
看来Storm凶多吉少呀 |
g*****g 发帖数: 34805 | 2 Storm 是real time processing, Spark是batch processing. Use case不太一样吧。
【在 p*****2 的大作中提到】 : 昨天跟几个大牛聊system design,今天发现Spark可以完美解决 : 看来Storm凶多吉少呀
|
z****e 发帖数: 54598 | 3 嗯,storm可以接收来自其他server的stream
spark还是主要针对persistence,现在也只针对hdfs
cassandra的支持都还只是刚刚起步
【在 g*****g 的大作中提到】 : Storm 是real time processing, Spark是batch processing. Use case不太一样吧。
|
c******o 发帖数: 1277 | 4 Spark 有成熟的stream service
Spark 可以接受外界的stream, 我们就用的是kinesis做缓存的stream |
p*****2 发帖数: 21240 | 5
大牛说的是。感觉我的use case用spark实现会容易很多。准备玩玩。
【在 c******o 的大作中提到】 : Spark 有成熟的stream service : Spark 可以接受外界的stream, 我们就用的是kinesis做缓存的stream
|
p*****2 发帖数: 21240 | 6
spark现在是一整套,stream也支持。
【在 g*****g 的大作中提到】 : Storm 是real time processing, Spark是batch processing. Use case不太一样吧。
|
z****e 发帖数: 54598 | 7 http://stackoverflow.com/questions/24119897/apache-spark-vs-apa
这两个其实并不冲突,而且有些重点不太一样,spark压根没把streaming太当回事
主流还是在mllib那些东西上,统一接口是所有人的喜好
j2ee什么都在做类似的事情,做个类似的比喻
spark vs storm
就像
vert.x vs akka/node.js
jboss vs mybatis
只能说竞争无处不在,任何一个领域都有3个以上的东西在竞争
优胜劣汰很正常,习惯就好
【在 c******o 的大作中提到】 : Spark 有成熟的stream service : Spark 可以接受外界的stream, 我们就用的是kinesis做缓存的stream
|
p*****2 发帖数: 21240 | 8
stream是core以外的第一个service,比mlib早。
【在 z****e 的大作中提到】 : http://stackoverflow.com/questions/24119897/apache-spark-vs-apa : 这两个其实并不冲突,而且有些重点不太一样,spark压根没把streaming太当回事 : 主流还是在mllib那些东西上,统一接口是所有人的喜好 : j2ee什么都在做类似的事情,做个类似的比喻 : spark vs storm : 就像 : vert.x vs akka/node.js : jboss vs mybatis : 只能说竞争无处不在,任何一个领域都有3个以上的东西在竞争 : 优胜劣汰很正常,习惯就好
|
z****e 发帖数: 54598 | 9 可能相对容易实现一点
sql和r那就麻烦点
sparkr那个目前只是做到让r可以call spark
反过来,让spark调用r的pkg就不太行
mllib也还比较简单,目前还只是text anaylsis阶段
还没有实现ml,统一接口是好事,如果不想折腾
那就直接上spark就好了
所以机会很多,一块新大陆,处女地
【在 p*****2 的大作中提到】 : : stream是core以外的第一个service,比mlib早。
|
p*****2 发帖数: 21240 | 10
前几天研究了一下语言,感觉除了coffee,还是clojure最好。不过看spark这个架势,
以后要大量scala了。
【在 z****e 的大作中提到】 : 可能相对容易实现一点 : sql和r那就麻烦点 : sparkr那个目前只是做到让r可以call spark : 反过来,让spark调用r的pkg就不太行 : mllib也还比较简单,目前还只是text anaylsis阶段 : 还没有实现ml,统一接口是好事,如果不想折腾 : 那就直接上spark就好了 : 所以机会很多,一块新大陆,处女地
|
|
|
p*****g 发帖数: 7 | 11 Spark's streaming support actually is called micro batch processing,
according to P Taylor Goetz's presentation. |
l*****t 发帖数: 2019 | 12 还真难说诶
【在 p*****2 的大作中提到】 : 昨天跟几个大牛聊system design,今天发现Spark可以完美解决 : 看来Storm凶多吉少呀
|
p*****2 发帖数: 21240 | 13 够用了 解决了storm几个明显问题 又加了新的feature 比如window 解决了一道经典面
试题
【在 p*****g 的大作中提到】 : Spark's streaming support actually is called micro batch processing, : according to P Taylor Goetz's presentation.
|
z****e 发帖数: 54598 | 14 spark现在的5个libs里面,sql和r就占了两个
看来是迫切需要让dba和统计学家都来搞
至于用来写web的脚本,那这个其实关系没那么大了
vert.x倒是支持得很快,vert.x对于主流web脚本语言都支持了
包括ruby,python,js,coffee,clojure,scala
【在 p*****2 的大作中提到】 : 够用了 解决了storm几个明显问题 又加了新的feature 比如window 解决了一道经典面 : 试题
|
p*****2 发帖数: 21240 | 15
spark还远没有成熟,现在问题不少,很多时候需要看源码,不懂scala很难呀
【在 z****e 的大作中提到】 : spark现在的5个libs里面,sql和r就占了两个 : 看来是迫切需要让dba和统计学家都来搞 : 至于用来写web的脚本,那这个其实关系没那么大了 : vert.x倒是支持得很快,vert.x对于主流web脚本语言都支持了 : 包括ruby,python,js,coffee,clojure,scala
|
z****e 发帖数: 54598 | 16 如果真的有问题,自己写一个替换掉原来的api,都比去看懂了再搞容易
不过对于有兴趣阅读源代码并做免费义工的人,应该予以鼓励
这是造福所有人的事,我在精神上支持你,开源就这点好,炮灰比较多
【在 p*****2 的大作中提到】 : : spark还远没有成熟,现在问题不少,很多时候需要看源码,不懂scala很难呀
|
z****e 发帖数: 54598 | 17 一般来说,版本号上1.0俺就认为它成熟了
node.js现在版本号都不敢上1.0,spark都1.1了
那又有啥好怕的,这多半是杞人忧天
实在怕,那就等2.0再上了,vert.x都奔着3.0去了
【在 p*****2 的大作中提到】 : : spark还远没有成熟,现在问题不少,很多时候需要看源码,不懂scala很难呀
|
p*****2 发帖数: 21240 | 18
等不及。再说shell就支持scala和python,本身又是scala写的。上scala很自然。
【在 z****e 的大作中提到】 : 一般来说,版本号上1.0俺就认为它成熟了 : node.js现在版本号都不敢上1.0,spark都1.1了 : 那又有啥好怕的,这多半是杞人忧天 : 实在怕,那就等2.0再上了,vert.x都奔着3.0去了
|
z****e 发帖数: 54598 | 19 python提供的tool好像更多一点
除了pyspark以外可以用numpy
如果只是用的话,用python还有更多东西可以用
【在 p*****2 的大作中提到】 : : 等不及。再说shell就支持scala和python,本身又是scala写的。上scala很自然。
|
p*****2 发帖数: 21240 | 20
我们整个公司都没人喜欢python。
【在 z****e 的大作中提到】 : python提供的tool好像更多一点 : 除了pyspark以外可以用numpy : 如果只是用的话,用python还有更多东西可以用
|
|
|
k*******n 发帖数: 190 | 21 SPARK 用来作streaming, 速度可以比storm 快一倍。 从kafka -> spark streaming -
> cassadra -> tableau , 总延时基本上是以秒来计算的。 |
N*****m 发帖数: 42603 | 22 从我们组看,已经取代了
aws emr上开spark做stream太轻松了,比storm容易多了
【在 p*****2 的大作中提到】 : 昨天跟几个大牛聊system design,今天发现Spark可以完美解决 : 看来Storm凶多吉少呀
|
p*****2 发帖数: 21240 | 23
太牛了。有大牛一句话,准备上了。
【在 N*****m 的大作中提到】 : 从我们组看,已经取代了 : aws emr上开spark做stream太轻松了,比storm容易多了
|
c****e 发帖数: 1453 | 24 Spark is micro batch. I heard a few friends using it talking that it is not
totally ready for prime time yet, not as mature as storm. But in the long
run, for many scenarios, it will eat storm's cake for sure. |
p*****2 发帖数: 21240 | 25
not
大牛公司上了吗?
【在 c****e 的大作中提到】 : Spark is micro batch. I heard a few friends using it talking that it is not : totally ready for prime time yet, not as mature as storm. But in the long : run, for many scenarios, it will eat storm's cake for sure.
|
f****3 发帖数: 77 | 26 spark 的streaming还达不到storm一样的毫秒级别吧?而且现在还不稳定。不过我们公
司现在才刚用storm,感觉完全落后社区。。 |