有大牛用Storm吗？ - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 有大牛用Storm吗？

相关主题
● 请问怎样才能很好的学习hadoop (转载)	● 【南加内推】Big data SWE
● Pinterest Software Engineer position for Data/Hadoop	● 现在去做hadoop的公司工作还有前途吗？
● big data software engineer或者data scientist 工作机会推荐	● workday onsite面经，已挂
● Electronic Arts job openings on Redwood City, CA	● 问道题吧 L家 onsite
● 要不要跟风搞搞big data？	● hadoop面试和学习总结
● System design这东西	● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？
● Tango.me急招ads开发	● 三星samsung创新部门招大数据工程师
● Ancestry is hiring Data Scientist/Senior Data Scientist	● Facebook Intern 选组求挂靠

相关话题的讨论汇总
话题: storm话题: 大牛话题: 牛用话题: 数据话题: impala

进入JobHunting版参与讨论

(共1页)

p*****2
发帖数: 21240

讲讲心得？

p*****2
发帖数: 21240

再问有人用Impala的吗？

g*********e
发帖数: 14401

大牛你整天纠结这些不入流的语言干什么？说不定作者还没你牛呢，这不是浪费时间吗
大牛精懂C++就打遍天下无敌手了

b*******e
发帖数: 123

FP还是很有前途的，就是没机会多用用。这俩刚看了看主页，经验不足，没看出要点。

p*****2
发帖数: 21240

间吗
大牛你竟然说这些是不入流的语言？

【在 g*********e 的大作中提到】

: 大牛你整天纠结这些不入流的语言干什么？说不定作者还没你牛呢，这不是浪费时间吗
: 大牛精懂C++就打遍天下无敌手了

g*********e
发帖数: 14401

我不是大牛自然没听说过这些劳什子
学了多半也是浪费时间

【在 p*****2 的大作中提到】

:
: 间吗
: 大牛你竟然说这些是不入流的语言？

p*****2
发帖数: 21240

这些不是语言，呵呵

【在 g*********e 的大作中提到】

:
: 我不是大牛自然没听说过这些劳什子
: 学了多半也是浪费时间

w**z
发帖数: 8232

听说比hive快很多。

间吗

【在 g*********e 的大作中提到】

: 大牛你整天纠结这些不入流的语言干什么？说不定作者还没你牛呢，这不是浪费时间吗
: 大牛精懂C++就打遍天下无敌手了

p*****2
发帖数: 21240

大牛是说impala吗？

【在 w**z 的大作中提到】

: 听说比hive快很多。
:
: 间吗

x***i
发帖数: 585

twitter的实时大数据系统？我觉得spark前景会更好一些。毕竟scala的灵活度更高。
我也在考虑要不要学，但是会不会跟yahoo的S4一个下场？现在yarn试图整合这些系统
，不知道谁会笑到最后。

相关主题
● System design这东西	● 【南加内推】Big data SWE
● Tango.me急招ads开发	● 现在去做hadoop的公司工作还有前途吗？
● Ancestry is hiring Data Scientist/Senior Data Scientist	● workday onsite面经，已挂
进入JobHunting版参与讨论

p*****2
发帖数: 21240

大牛为什么觉得scala比clojure的灵活性更高呀？

【在 x***i 的大作中提到】

: twitter的实时大数据系统？我觉得spark前景会更好一些。毕竟scala的灵活度更高。
: 我也在考虑要不要学，但是会不会跟yahoo的S4一个下场？现在yarn试图整合这些系统
: ，不知道谁会笑到最后。

x***i
发帖数: 585

好吧，我木有用过clojure，我以为storm是python的。
二爷能谈谈，这些realtime distributed systems以后的发展前景不？

【在 p*****2 的大作中提到】

:
: 大牛为什么觉得scala比clojure的灵活性更高呀？

p*****2
发帖数: 21240

我也不太懂，不过看了看storm确实弥补了hadoop的缺陷，是个好东西。

【在 x***i 的大作中提到】

: 好吧，我木有用过clojure，我以为storm是python的。
: 二爷能谈谈，这些realtime distributed systems以后的发展前景不？

w**z
发帖数: 8232

是，我们有人试过，快好多倍。

【在 p*****2 的大作中提到】

:
: 我也不太懂，不过看了看storm确实弥补了hadoop的缺陷，是个好东西。

p*****2
发帖数: 21240

牛。这东西就是为了real time而设计的。

【在 w**z 的大作中提到】

: 是，我们有人试过，快好多倍。

z*******3
发帖数: 13709

这里说的real time精确到多少？

【在 p*****2 的大作中提到】

:
: 牛。这东西就是为了real time而设计的。

w**z
发帖数: 8232

是很神奇，几百G的数据，几秒就出结果了，hive要一分多钟。没仔细研究过，不知道
是怎么弄的。

【在 p*****2 的大作中提到】

:
: 牛。这东西就是为了real time而设计的。

z*******3
发帖数: 13709

这话太夸张
你要能做storm这种档次的构架
你的价值就可以跟linus比一比了
一年拿半米不是问题
要是找不到工作，把简历给我
我来帮你投，就怕这里半米的工作您看不上

间吗

【在 g*********e 的大作中提到】

: 大牛你整天纠结这些不入流的语言干什么？说不定作者还没你牛呢，这不是浪费时间吗
: 大牛精懂C++就打遍天下无敌手了

z*******3
发帖数: 13709

我在想它们怎么对付jvm的gc的停顿时间
如果用hotspot的jvm的话，这个感觉很难绕开
打算看看它们的jvm参数，看看是不是有什么神奇的设定不知道的
不知道g1够用不够用

【在 w**z 的大作中提到】

: 是很神奇，几百G的数据，几秒就出结果了，hive要一分多钟。没仔细研究过，不知道
: 是怎么弄的。

p*****2
发帖数: 21240

大牛的数字很准确。我也认为500K＋没什么大问题，如果是Storm大牛的话。

【在 z*******3 的大作中提到】

: 这话太夸张
: 你要能做storm这种档次的构架
: 你的价值就可以跟linus比一比了
: 一年拿半米不是问题
: 要是找不到工作，把简历给我
: 我来帮你投，就怕这里半米的工作您看不上
:
: 间吗

相关主题
● 问道题吧 L家 onsite	● 三星samsung创新部门招大数据工程师
● hadoop面试和学习总结	● Facebook Intern 选组求挂靠
● 还有一周onsite，怎么看Hadoop.The.Definitive.Guide效率最高？	● 请教下用deadline逼offer靠谱不？利益相关Pinterest，Google
进入JobHunting版参与讨论

p*****2
发帖数: 21240

大牛先研究一下过来分享？

【在 z*******3 的大作中提到】

: 我在想它们怎么对付jvm的gc的停顿时间
: 如果用hotspot的jvm的话，这个感觉很难绕开
: 打算看看它们的jvm参数，看看是不是有什么神奇的设定不知道的
: 不知道g1够用不够用

e***s
发帖数: 799

二爷老研究高新科技啊～
我也很想学习大数据，分布式，实时系统这类的东西，但是觉得不是找一份相关的工作
，根本学不来。。。。

p*****2
发帖数: 21240

大牛说的是事实呀。像800题大牛这样硬学成才的确实很罕见。

【在 e***s 的大作中提到】

: 二爷老研究高新科技啊～
: 我也很想学习大数据，分布式，实时系统这类的东西，但是觉得不是找一份相关的工作
: ，根本学不来。。。。

x***i
发帖数: 585

我没有用过storm，但是用过spark。我大概说说我理解的原理吧。
速度快的原因很简单，就是把数据放到内存中，第一次会慢，以后再实用相同数据就快
了。但是一旦有机器挂了，就面临问题，有两个方案，一个是hadoop的backup策略，但
是内存比硬盘贵多了，非常不经济。第二个就是spark用的回滚。但是不能所有的小粒
度的操作
都设计回滚，代价太大，所以spark定义了一些类似sql的大粒度的操作。一旦fail，就
整个操作回滚
。

w**z
发帖数: 8232

看了一下,好像是cloudera自己的技术，不用map reduce, work on hdfs directly, it
runs daemon on each node which caches data in memory.

【在 w**z 的大作中提到】

: 是很神奇，几百G的数据，几秒就出结果了，hive要一分多钟。没仔细研究过，不知道
: 是怎么弄的。

p*****2
发帖数: 21240

it
大牛学的真快呀。

【在 w**z 的大作中提到】

: 看了一下,好像是cloudera自己的技术，不用map reduce, work on hdfs directly, it
: runs daemon on each node which caches data in memory.

p*****2
发帖数: 21240

多谢大牛分享。

【在 x***i 的大作中提到】

: 我没有用过storm，但是用过spark。我大概说说我理解的原理吧。
: 速度快的原因很简单，就是把数据放到内存中，第一次会慢，以后再实用相同数据就快
: 了。但是一旦有机器挂了，就面临问题，有两个方案，一个是hadoop的backup策略，但
: 是内存比硬盘贵多了，非常不经济。第二个就是spark用的回滚。但是不能所有的小粒
: 度的操作
: 都设计回滚，代价太大，所以spark定义了一些类似sql的大粒度的操作。一旦fail，就
: 整个操作回滚
: 。

p*****2
发帖数: 21240

感觉storm这个open source项目不错，可以参与一下。

z****e
发帖数: 54598

不太可能吧
如果是全放到内存里的话
那gc总得有停顿时间，有gc停顿的话
吹自己是real time就扯了点
除非它们针对这个做了处理
用了专门的jvm之类的
不过看着不象啊

【在 x***i 的大作中提到】

z****e
发帖数: 54598

也就是在每一个node上建一个cache？
感觉只是一个常见的优化手段

it

【在 w**z 的大作中提到】

: 看了一下,好像是cloudera自己的技术，不用map reduce, work on hdfs directly, it
: runs daemon on each node which caches data in memory.

相关主题
● Staff Software Engineer- Cloud and Big Data	● Pinterest Software Engineer position for Data/Hadoop
● 【工作机会】Principal Big Data Platform Engineer -- CA	● big data software engineer或者data scientist 工作机会推荐
● 请问怎样才能很好的学习hadoop (转载)	● Electronic Arts job openings on Redwood City, CA
进入JobHunting版参与讨论

z****e
发帖数: 54598

storm的作者是twitter首席构架师内森
这是它写的一篇文章
http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html

z****e
发帖数: 54598

看了下内森的文章
其实也没啥很fancy的东西
简单说构架无非就是
用hadoop保存history documents，主要数据源
然后建view，也就是预处理查询，用它自己写的elephonedb
从hadoop中拨取出key value pair，然后存起来
这样对于历史部分数据的查询，就是直接访问elephonedb，然后做加法了
然后对于实时部分的处理，就是storm+cassandra
由于这部分数据仅仅是最近数小时内的数据
所以就算全部读入内存，其实也没啥大不了的
加强监控，不要让内存爆掉，不要让gc停顿时间太长
剩下的也就是在query时候提供数据就好了
最后把实时数据和历史数据的查询做一个加法就是最后的结果

d***n
发帖数: 832

groupon内部就在用storm

l*n
发帖数: 529

赞分析。

【在 z****e 的大作中提到】

: 看了下内森的文章
: 其实也没啥很fancy的东西
: 简单说构架无非就是
: 用hadoop保存history documents，主要数据源
: 然后建view，也就是预处理查询，用它自己写的elephonedb
: 从hadoop中拨取出key value pair，然后存起来
: 这样对于历史部分数据的查询，就是直接访问elephonedb，然后做加法了
: 然后对于实时部分的处理，就是storm+cassandra
: 由于这部分数据仅仅是最近数小时内的数据
: 所以就算全部读入内存，其实也没啥大不了的

d***n
发帖数: 832

这个tutorial video很好，Nathan本人讲的，非常清楚
http://vimeo.com/40972420

(共1页)

进入JobHunting版参与讨论

相关主题
● Facebook Intern 选组求挂靠	● 要不要跟风搞搞big data？
● 请教下用deadline逼offer靠谱不？利益相关Pinterest，Google	● System design这东西
● Staff Software Engineer- Cloud and Big Data	● Tango.me急招ads开发
● 【工作机会】Principal Big Data Platform Engineer -- CA	● Ancestry is hiring Data Scientist/Senior Data Scientist
● 请问怎样才能很好的学习hadoop (转载)	● 【南加内推】Big data SWE
● Pinterest Software Engineer position for Data/Hadoop	● 现在去做hadoop的公司工作还有前途吗？
● big data software engineer或者data scientist 工作机会推荐	● workday onsite面经，已挂
● Electronic Arts job openings on Redwood City, CA	● 问道题吧 L家 onsite

相关话题的讨论汇总
话题: storm话题: 大牛话题: 牛用话题: 数据话题: impala

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天