由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
JobHunting版 - 有大牛用Storm吗?
相关主题
请问怎样才能很好的学习hadoop (转载)【南加内推】Big data SWE
Pinterest Software Engineer position for Data/Hadoop现在去做hadoop的公司工作还有前途吗?
big data software engineer或者data scientist 工作机会推荐workday onsite面经,已挂
Electronic Arts job openings on Redwood City, CA问道题吧 L家 onsite
要不要跟风搞搞big data?hadoop面试和学习总结
System design这东西还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?
Tango.me急招ads开发三星samsung创新部门招大数据工程师
Ancestry is hiring Data Scientist/Senior Data ScientistFacebook Intern 选组求挂靠
相关话题的讨论汇总
话题: storm话题: 大牛话题: 牛用话题: 数据话题: impala
进入JobHunting版参与讨论
1 (共1页)
p*****2
发帖数: 21240
1
讲讲心得?
p*****2
发帖数: 21240
2
再问有人用Impala的吗?
g*********e
发帖数: 14401
3
大牛 你整天纠结这些不入流的语言干什么?说不定作者还没你牛呢,这不是浪费时间吗
大牛精懂C++就打遍天下无敌手了
b*******e
发帖数: 123
4
FP还是很有前途的,就是没机会多用用。这俩刚看了看主页,经验不足,没看出要点。
p*****2
发帖数: 21240
5

间吗
大牛你竟然说这些是不入流的语言?

【在 g*********e 的大作中提到】
: 大牛 你整天纠结这些不入流的语言干什么?说不定作者还没你牛呢,这不是浪费时间吗
: 大牛精懂C++就打遍天下无敌手了

g*********e
发帖数: 14401
6

我不是大牛 自然没听说过这些劳什子
学了多半也是浪费时间

【在 p*****2 的大作中提到】
:
: 间吗
: 大牛你竟然说这些是不入流的语言?

p*****2
发帖数: 21240
7

这些不是语言,呵呵

【在 g*********e 的大作中提到】
:
: 我不是大牛 自然没听说过这些劳什子
: 学了多半也是浪费时间

w**z
发帖数: 8232
8
听说比hive快很多。

间吗

【在 g*********e 的大作中提到】
: 大牛 你整天纠结这些不入流的语言干什么?说不定作者还没你牛呢,这不是浪费时间吗
: 大牛精懂C++就打遍天下无敌手了

p*****2
发帖数: 21240
9

大牛是说impala吗?

【在 w**z 的大作中提到】
: 听说比hive快很多。
:
: 间吗

x***i
发帖数: 585
10
twitter的实时大数据系统? 我觉得spark前景会更好一些。毕竟scala的灵活度更高。
我也在考虑要不要学,但是会不会跟yahoo的S4一个下场? 现在yarn试图整合这些系统
,不知道谁会笑到最后。
相关主题
System design这东西【南加内推】Big data SWE
Tango.me急招ads开发现在去做hadoop的公司工作还有前途吗?
Ancestry is hiring Data Scientist/Senior Data Scientistworkday onsite面经,已挂
进入JobHunting版参与讨论
p*****2
发帖数: 21240
11

大牛为什么觉得scala比clojure的灵活性更高呀?

【在 x***i 的大作中提到】
: twitter的实时大数据系统? 我觉得spark前景会更好一些。毕竟scala的灵活度更高。
: 我也在考虑要不要学,但是会不会跟yahoo的S4一个下场? 现在yarn试图整合这些系统
: ,不知道谁会笑到最后。

x***i
发帖数: 585
12
好吧,我木有用过clojure,我以为storm是python的。
二爷能谈谈,这些realtime distributed systems以后的发展前景不?

【在 p*****2 的大作中提到】
:
: 大牛为什么觉得scala比clojure的灵活性更高呀?

p*****2
发帖数: 21240
13

我也不太懂,不过看了看storm确实弥补了hadoop的缺陷,是个好东西。

【在 x***i 的大作中提到】
: 好吧,我木有用过clojure,我以为storm是python的。
: 二爷能谈谈,这些realtime distributed systems以后的发展前景不?

w**z
发帖数: 8232
14
是, 我们有人试过,快好多倍。

【在 p*****2 的大作中提到】
:
: 我也不太懂,不过看了看storm确实弥补了hadoop的缺陷,是个好东西。

p*****2
发帖数: 21240
15

牛。这东西就是为了real time而设计的。

【在 w**z 的大作中提到】
: 是, 我们有人试过,快好多倍。
z*******3
发帖数: 13709
16
这里说的real time精确到多少?

【在 p*****2 的大作中提到】
:
: 牛。这东西就是为了real time而设计的。

w**z
发帖数: 8232
17
是很神奇,几百G的数据,几秒就出结果了,hive要一分多钟。没仔细研究过,不知道
是怎么弄的。

【在 p*****2 的大作中提到】
:
: 牛。这东西就是为了real time而设计的。

z*******3
发帖数: 13709
18
这话太夸张
你要能做storm这种档次的构架
你的价值就可以跟linus比一比了
一年拿半米不是问题
要是找不到工作,把简历给我
我来帮你投,就怕这里半米的工作您看不上

间吗

【在 g*********e 的大作中提到】
: 大牛 你整天纠结这些不入流的语言干什么?说不定作者还没你牛呢,这不是浪费时间吗
: 大牛精懂C++就打遍天下无敌手了

z*******3
发帖数: 13709
19
我在想它们怎么对付jvm的gc的停顿时间
如果用hotspot的jvm的话,这个感觉很难绕开
打算看看它们的jvm参数,看看是不是有什么神奇的设定不知道的
不知道g1够用不够用

【在 w**z 的大作中提到】
: 是很神奇,几百G的数据,几秒就出结果了,hive要一分多钟。没仔细研究过,不知道
: 是怎么弄的。

p*****2
发帖数: 21240
20

大牛的数字很准确。我也认为500K+没什么大问题,如果是Storm大牛的话。

【在 z*******3 的大作中提到】
: 这话太夸张
: 你要能做storm这种档次的构架
: 你的价值就可以跟linus比一比了
: 一年拿半米不是问题
: 要是找不到工作,把简历给我
: 我来帮你投,就怕这里半米的工作您看不上
:
: 间吗

相关主题
问道题吧 L家 onsite三星samsung创新部门招大数据工程师
hadoop面试和学习总结Facebook Intern 选组求挂靠
还有一周onsite,怎么看Hadoop.The.Definitive.Guide效率最高?请教下用deadline逼offer靠谱不? 利益相关Pinterest,Google
进入JobHunting版参与讨论
p*****2
发帖数: 21240
21

大牛先研究一下过来分享?

【在 z*******3 的大作中提到】
: 我在想它们怎么对付jvm的gc的停顿时间
: 如果用hotspot的jvm的话,这个感觉很难绕开
: 打算看看它们的jvm参数,看看是不是有什么神奇的设定不知道的
: 不知道g1够用不够用

e***s
发帖数: 799
22
二爷老研究高新科技啊~
我也很想学习大数据,分布式,实时系统这类的东西,但是觉得不是找一份相关的工作
,根本学不来。。。。
p*****2
发帖数: 21240
23

大牛说的是事实呀。像800题大牛这样硬学成才的确实很罕见。

【在 e***s 的大作中提到】
: 二爷老研究高新科技啊~
: 我也很想学习大数据,分布式,实时系统这类的东西,但是觉得不是找一份相关的工作
: ,根本学不来。。。。

x***i
发帖数: 585
24
我没有用过storm,但是用过spark。我大概说说我理解的原理吧。
速度快的原因很简单,就是把数据放到内存中,第一次会慢,以后再实用相同数据就快
了。但是一旦有机器挂了,就面临问题,有两个方案,一个是hadoop的backup策略,但
是内存比硬盘贵多了,非常不经济。第二个就是spark用的回滚。但是不能所有的小粒
度的操作
都设计回滚,代价太大,所以spark定义了一些类似sql的大粒度的操作。一旦fail,就
整个操作回滚
w**z
发帖数: 8232
25
看了一下,好像是cloudera自己的技术,不用map reduce, work on hdfs directly, it
runs daemon on each node which caches data in memory.

【在 w**z 的大作中提到】
: 是很神奇,几百G的数据,几秒就出结果了,hive要一分多钟。没仔细研究过,不知道
: 是怎么弄的。

p*****2
发帖数: 21240
26

it
大牛学的真快呀。

【在 w**z 的大作中提到】
: 看了一下,好像是cloudera自己的技术,不用map reduce, work on hdfs directly, it
: runs daemon on each node which caches data in memory.

p*****2
发帖数: 21240
27

多谢大牛分享。

【在 x***i 的大作中提到】
: 我没有用过storm,但是用过spark。我大概说说我理解的原理吧。
: 速度快的原因很简单,就是把数据放到内存中,第一次会慢,以后再实用相同数据就快
: 了。但是一旦有机器挂了,就面临问题,有两个方案,一个是hadoop的backup策略,但
: 是内存比硬盘贵多了,非常不经济。第二个就是spark用的回滚。但是不能所有的小粒
: 度的操作
: 都设计回滚,代价太大,所以spark定义了一些类似sql的大粒度的操作。一旦fail,就
: 整个操作回滚
: 。

p*****2
发帖数: 21240
28
感觉storm这个open source项目不错,可以参与一下。
z****e
发帖数: 54598
29
不太可能吧
如果是全放到内存里的话
那gc总得有停顿时间,有gc停顿的话
吹自己是real time就扯了点
除非它们针对这个做了处理
用了专门的jvm之类的
不过看着不象啊

【在 x***i 的大作中提到】
: 我没有用过storm,但是用过spark。我大概说说我理解的原理吧。
: 速度快的原因很简单,就是把数据放到内存中,第一次会慢,以后再实用相同数据就快
: 了。但是一旦有机器挂了,就面临问题,有两个方案,一个是hadoop的backup策略,但
: 是内存比硬盘贵多了,非常不经济。第二个就是spark用的回滚。但是不能所有的小粒
: 度的操作
: 都设计回滚,代价太大,所以spark定义了一些类似sql的大粒度的操作。一旦fail,就
: 整个操作回滚
: 。

z****e
发帖数: 54598
30
也就是在每一个node上建一个cache?
感觉只是一个常见的优化手段

it

【在 w**z 的大作中提到】
: 看了一下,好像是cloudera自己的技术,不用map reduce, work on hdfs directly, it
: runs daemon on each node which caches data in memory.

相关主题
Staff Software Engineer- Cloud and Big DataPinterest Software Engineer position for Data/Hadoop
【工作机会】Principal Big Data Platform Engineer -- CAbig data software engineer或者data scientist 工作机会推荐
请问怎样才能很好的学习hadoop (转载)Electronic Arts job openings on Redwood City, CA
进入JobHunting版参与讨论
z****e
发帖数: 54598
31
storm的作者是twitter首席构架师内森
这是它写的一篇文章
http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html
z****e
发帖数: 54598
32
看了下内森的文章
其实也没啥很fancy的东西
简单说构架无非就是
用hadoop保存history documents,主要数据源
然后建view,也就是预处理查询,用它自己写的elephonedb
从hadoop中拨取出key value pair,然后存起来
这样对于历史部分数据的查询,就是直接访问elephonedb,然后做加法了
然后对于实时部分的处理,就是storm+cassandra
由于这部分数据仅仅是最近数小时内的数据
所以就算全部读入内存,其实也没啥大不了的
加强监控,不要让内存爆掉,不要让gc停顿时间太长
剩下的也就是在query时候提供数据就好了
最后把实时数据和历史数据的查询做一个加法就是最后的结果
d***n
发帖数: 832
33
groupon内部就在用storm
l*n
发帖数: 529
34
赞分析。

【在 z****e 的大作中提到】
: 看了下内森的文章
: 其实也没啥很fancy的东西
: 简单说构架无非就是
: 用hadoop保存history documents,主要数据源
: 然后建view,也就是预处理查询,用它自己写的elephonedb
: 从hadoop中拨取出key value pair,然后存起来
: 这样对于历史部分数据的查询,就是直接访问elephonedb,然后做加法了
: 然后对于实时部分的处理,就是storm+cassandra
: 由于这部分数据仅仅是最近数小时内的数据
: 所以就算全部读入内存,其实也没啥大不了的

d***n
发帖数: 832
35
这个tutorial video很好,Nathan本人讲的,非常清楚
http://vimeo.com/40972420
1 (共1页)
进入JobHunting版参与讨论
相关主题
Facebook Intern 选组求挂靠要不要跟风搞搞big data?
请教下用deadline逼offer靠谱不? 利益相关Pinterest,GoogleSystem design这东西
Staff Software Engineer- Cloud and Big DataTango.me急招ads开发
【工作机会】Principal Big Data Platform Engineer -- CAAncestry is hiring Data Scientist/Senior Data Scientist
请问怎样才能很好的学习hadoop (转载)【南加内推】Big data SWE
Pinterest Software Engineer position for Data/Hadoop现在去做hadoop的公司工作还有前途吗?
big data software engineer或者data scientist 工作机会推荐workday onsite面经,已挂
Electronic Arts job openings on Redwood City, CA问道题吧 L家 onsite
相关话题的讨论汇总
话题: storm话题: 大牛话题: 牛用话题: 数据话题: impala