p*****2 发帖数: 21240 | |
p*****2 发帖数: 21240 | |
g*********e 发帖数: 14401 | 3 大牛 你整天纠结这些不入流的语言干什么?说不定作者还没你牛呢,这不是浪费时间吗
大牛精懂C++就打遍天下无敌手了 |
b*******e 发帖数: 123 | 4 FP还是很有前途的,就是没机会多用用。这俩刚看了看主页,经验不足,没看出要点。 |
p*****2 发帖数: 21240 | 5
间吗
大牛你竟然说这些是不入流的语言?
【在 g*********e 的大作中提到】 : 大牛 你整天纠结这些不入流的语言干什么?说不定作者还没你牛呢,这不是浪费时间吗 : 大牛精懂C++就打遍天下无敌手了
|
g*********e 发帖数: 14401 | 6
我不是大牛 自然没听说过这些劳什子
学了多半也是浪费时间
【在 p*****2 的大作中提到】 : : 间吗 : 大牛你竟然说这些是不入流的语言?
|
p*****2 发帖数: 21240 | 7
这些不是语言,呵呵
【在 g*********e 的大作中提到】 : : 我不是大牛 自然没听说过这些劳什子 : 学了多半也是浪费时间
|
w**z 发帖数: 8232 | 8 听说比hive快很多。
间吗
【在 g*********e 的大作中提到】 : 大牛 你整天纠结这些不入流的语言干什么?说不定作者还没你牛呢,这不是浪费时间吗 : 大牛精懂C++就打遍天下无敌手了
|
p*****2 发帖数: 21240 | 9
大牛是说impala吗?
【在 w**z 的大作中提到】 : 听说比hive快很多。 : : 间吗
|
x***i 发帖数: 585 | 10 twitter的实时大数据系统? 我觉得spark前景会更好一些。毕竟scala的灵活度更高。
我也在考虑要不要学,但是会不会跟yahoo的S4一个下场? 现在yarn试图整合这些系统
,不知道谁会笑到最后。 |
|
|
p*****2 发帖数: 21240 | 11
大牛为什么觉得scala比clojure的灵活性更高呀?
【在 x***i 的大作中提到】 : twitter的实时大数据系统? 我觉得spark前景会更好一些。毕竟scala的灵活度更高。 : 我也在考虑要不要学,但是会不会跟yahoo的S4一个下场? 现在yarn试图整合这些系统 : ,不知道谁会笑到最后。
|
x***i 发帖数: 585 | 12 好吧,我木有用过clojure,我以为storm是python的。
二爷能谈谈,这些realtime distributed systems以后的发展前景不?
【在 p*****2 的大作中提到】 : : 大牛为什么觉得scala比clojure的灵活性更高呀?
|
p*****2 发帖数: 21240 | 13
我也不太懂,不过看了看storm确实弥补了hadoop的缺陷,是个好东西。
【在 x***i 的大作中提到】 : 好吧,我木有用过clojure,我以为storm是python的。 : 二爷能谈谈,这些realtime distributed systems以后的发展前景不?
|
w**z 发帖数: 8232 | 14 是, 我们有人试过,快好多倍。
【在 p*****2 的大作中提到】 : : 我也不太懂,不过看了看storm确实弥补了hadoop的缺陷,是个好东西。
|
p*****2 发帖数: 21240 | 15
牛。这东西就是为了real time而设计的。
【在 w**z 的大作中提到】 : 是, 我们有人试过,快好多倍。
|
z*******3 发帖数: 13709 | 16 这里说的real time精确到多少?
【在 p*****2 的大作中提到】 : : 牛。这东西就是为了real time而设计的。
|
w**z 发帖数: 8232 | 17 是很神奇,几百G的数据,几秒就出结果了,hive要一分多钟。没仔细研究过,不知道
是怎么弄的。
【在 p*****2 的大作中提到】 : : 牛。这东西就是为了real time而设计的。
|
z*******3 发帖数: 13709 | 18 这话太夸张
你要能做storm这种档次的构架
你的价值就可以跟linus比一比了
一年拿半米不是问题
要是找不到工作,把简历给我
我来帮你投,就怕这里半米的工作您看不上
间吗
【在 g*********e 的大作中提到】 : 大牛 你整天纠结这些不入流的语言干什么?说不定作者还没你牛呢,这不是浪费时间吗 : 大牛精懂C++就打遍天下无敌手了
|
z*******3 发帖数: 13709 | 19 我在想它们怎么对付jvm的gc的停顿时间
如果用hotspot的jvm的话,这个感觉很难绕开
打算看看它们的jvm参数,看看是不是有什么神奇的设定不知道的
不知道g1够用不够用
【在 w**z 的大作中提到】 : 是很神奇,几百G的数据,几秒就出结果了,hive要一分多钟。没仔细研究过,不知道 : 是怎么弄的。
|
p*****2 发帖数: 21240 | 20
大牛的数字很准确。我也认为500K+没什么大问题,如果是Storm大牛的话。
【在 z*******3 的大作中提到】 : 这话太夸张 : 你要能做storm这种档次的构架 : 你的价值就可以跟linus比一比了 : 一年拿半米不是问题 : 要是找不到工作,把简历给我 : 我来帮你投,就怕这里半米的工作您看不上 : : 间吗
|
|
|
p*****2 发帖数: 21240 | 21
大牛先研究一下过来分享?
【在 z*******3 的大作中提到】 : 我在想它们怎么对付jvm的gc的停顿时间 : 如果用hotspot的jvm的话,这个感觉很难绕开 : 打算看看它们的jvm参数,看看是不是有什么神奇的设定不知道的 : 不知道g1够用不够用
|
e***s 发帖数: 799 | 22 二爷老研究高新科技啊~
我也很想学习大数据,分布式,实时系统这类的东西,但是觉得不是找一份相关的工作
,根本学不来。。。。 |
p*****2 发帖数: 21240 | 23
大牛说的是事实呀。像800题大牛这样硬学成才的确实很罕见。
【在 e***s 的大作中提到】 : 二爷老研究高新科技啊~ : 我也很想学习大数据,分布式,实时系统这类的东西,但是觉得不是找一份相关的工作 : ,根本学不来。。。。
|
x***i 发帖数: 585 | 24 我没有用过storm,但是用过spark。我大概说说我理解的原理吧。
速度快的原因很简单,就是把数据放到内存中,第一次会慢,以后再实用相同数据就快
了。但是一旦有机器挂了,就面临问题,有两个方案,一个是hadoop的backup策略,但
是内存比硬盘贵多了,非常不经济。第二个就是spark用的回滚。但是不能所有的小粒
度的操作
都设计回滚,代价太大,所以spark定义了一些类似sql的大粒度的操作。一旦fail,就
整个操作回滚
。 |
w**z 发帖数: 8232 | 25 看了一下,好像是cloudera自己的技术,不用map reduce, work on hdfs directly, it
runs daemon on each node which caches data in memory.
【在 w**z 的大作中提到】 : 是很神奇,几百G的数据,几秒就出结果了,hive要一分多钟。没仔细研究过,不知道 : 是怎么弄的。
|
p*****2 发帖数: 21240 | 26
it
大牛学的真快呀。
【在 w**z 的大作中提到】 : 看了一下,好像是cloudera自己的技术,不用map reduce, work on hdfs directly, it : runs daemon on each node which caches data in memory.
|
p*****2 发帖数: 21240 | 27
多谢大牛分享。
【在 x***i 的大作中提到】 : 我没有用过storm,但是用过spark。我大概说说我理解的原理吧。 : 速度快的原因很简单,就是把数据放到内存中,第一次会慢,以后再实用相同数据就快 : 了。但是一旦有机器挂了,就面临问题,有两个方案,一个是hadoop的backup策略,但 : 是内存比硬盘贵多了,非常不经济。第二个就是spark用的回滚。但是不能所有的小粒 : 度的操作 : 都设计回滚,代价太大,所以spark定义了一些类似sql的大粒度的操作。一旦fail,就 : 整个操作回滚 : 。
|
p*****2 发帖数: 21240 | 28 感觉storm这个open source项目不错,可以参与一下。 |
z****e 发帖数: 54598 | 29 不太可能吧
如果是全放到内存里的话
那gc总得有停顿时间,有gc停顿的话
吹自己是real time就扯了点
除非它们针对这个做了处理
用了专门的jvm之类的
不过看着不象啊
【在 x***i 的大作中提到】 : 我没有用过storm,但是用过spark。我大概说说我理解的原理吧。 : 速度快的原因很简单,就是把数据放到内存中,第一次会慢,以后再实用相同数据就快 : 了。但是一旦有机器挂了,就面临问题,有两个方案,一个是hadoop的backup策略,但 : 是内存比硬盘贵多了,非常不经济。第二个就是spark用的回滚。但是不能所有的小粒 : 度的操作 : 都设计回滚,代价太大,所以spark定义了一些类似sql的大粒度的操作。一旦fail,就 : 整个操作回滚 : 。
|
z****e 发帖数: 54598 | 30 也就是在每一个node上建一个cache?
感觉只是一个常见的优化手段
it
【在 w**z 的大作中提到】 : 看了一下,好像是cloudera自己的技术,不用map reduce, work on hdfs directly, it : runs daemon on each node which caches data in memory.
|
|
|
z****e 发帖数: 54598 | |
z****e 发帖数: 54598 | 32 看了下内森的文章
其实也没啥很fancy的东西
简单说构架无非就是
用hadoop保存history documents,主要数据源
然后建view,也就是预处理查询,用它自己写的elephonedb
从hadoop中拨取出key value pair,然后存起来
这样对于历史部分数据的查询,就是直接访问elephonedb,然后做加法了
然后对于实时部分的处理,就是storm+cassandra
由于这部分数据仅仅是最近数小时内的数据
所以就算全部读入内存,其实也没啥大不了的
加强监控,不要让内存爆掉,不要让gc停顿时间太长
剩下的也就是在query时候提供数据就好了
最后把实时数据和历史数据的查询做一个加法就是最后的结果 |
d***n 发帖数: 832 | |
l*n 发帖数: 529 | 34 赞分析。
【在 z****e 的大作中提到】 : 看了下内森的文章 : 其实也没啥很fancy的东西 : 简单说构架无非就是 : 用hadoop保存history documents,主要数据源 : 然后建view,也就是预处理查询,用它自己写的elephonedb : 从hadoop中拨取出key value pair,然后存起来 : 这样对于历史部分数据的查询,就是直接访问elephonedb,然后做加法了 : 然后对于实时部分的处理,就是storm+cassandra : 由于这部分数据仅仅是最近数小时内的数据 : 所以就算全部读入内存,其实也没啥大不了的
|
d***n 发帖数: 832 | 35 这个tutorial video很好,Nathan本人讲的,非常清楚
http://vimeo.com/40972420 |