关于 SPARK, 问二爷peking2 和其他大牛一问题 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 关于 SPARK, 问二爷peking2 和其他大牛一问题

相关主题
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● 如何提高Spark在Yarn上的内存使用率
● Hadoop 和Python的数据分析包哪个更值得学习？	● 大牛能不能讨论下cassandra， Hbase， MongoDB的对比
● 搞不懂为什么大牛说Hbase不如C*?	● 怎样schedule spark application
● 学scala和spark需要什么pre req?	● 以后真的是cassandra spark的天下了？
● Time series big data大家觉得怎么存储比较好？	● Spark + C*
● AWS cloud 内部做log，大家怎么设计	● 问二爷一个题外话
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● 试了下spark，不过如此啊
● Hadoop/HBase/HDFS三驾马车过时了吗？	● Cassandra 真是狗屎

相关话题的讨论汇总
话题: spark话题: hdfs话题: hadoop话题: standalone话题: cassandra

进入Programming版参与讨论

(共1页)

S*******e
发帖数: 525

你们是用standalone mode, 还是over Hadoop/HDFS？要是standalone mode, 怎么处
理‘cluster’ 的 filesystem？
用了别人的10个datanode的Hadoop cluster 试SPARK。 Count records in files
with SPARK，只需要4分钟（1 billion records）。曾用 Hadoop's MR在40个
datanode上至少要用三十几分钟。这个该死的40datanode现在试不了SPARK -- 老给我
出错.
现在，自己组里想搭建一个小的spark cluster。不知是用standalone mode，还是
over hdfs。

c******o
发帖数: 1277

over hdfs

B*****g
发帖数: 34098

yarn

【在 S*******e 的大作中提到】

: 你们是用standalone mode, 还是over Hadoop/HDFS？要是standalone mode, 怎么处
: 理‘cluster’ 的 filesystem？
: 用了别人的10个datanode的Hadoop cluster 试SPARK。 Count records in files
: with SPARK，只需要4分钟（1 billion records）。曾用 Hadoop's MR在40个
: datanode上至少要用三十几分钟。这个该死的40datanode现在试不了SPARK -- 老给我
: 出错.
: 现在，自己组里想搭建一个小的spark cluster。不知是用standalone mode，还是
: over hdfs。

S*******e
发帖数: 525

谢各位大牛。

p*****2
发帖数: 21240

我们是standalone然后C＊
我们公司会上yarn

【在 S*******e 的大作中提到】

: 谢各位大牛。

B*****g
发帖数: 34098

有用hdfs吗？

【在 p*****2 的大作中提到】

:
: 我们是standalone然后C＊
: 我们公司会上yarn

c******o
发帖数: 1277

基本上我们和二爷的完全不一样。。。
kinesis + mesos + hdfs
二爷是
kafka + yarn + Cassandra
我们也在找办法用Cassandra.

p*****2
发帖数: 21240

也考虑。据说yarn上有优化。

【在 B*****g 的大作中提到】

: 有用hdfs吗？

p*****2
发帖数: 21240

datastax的人很难缠

【在 c******o 的大作中提到】

: 基本上我们和二爷的完全不一样。。。
: kinesis + mesos + hdfs
: 二爷是
: kafka + yarn + Cassandra
: 我们也在找办法用Cassandra.

B*****g
发帖数: 34098

数据怎么搞到C＊上快？

【在 p*****2 的大作中提到】

:
: datastax的人很难缠

相关主题
● AWS cloud 内部做log，大家怎么设计	● 如何提高Spark在Yarn上的内存使用率
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● 大牛能不能讨论下cassandra， Hbase， MongoDB的对比
● Hadoop/HBase/HDFS三驾马车过时了吗？	● 怎样schedule spark application
进入Programming版参与讨论

z****e
发帖数: 54598

这是打算弃用mongo的一种表达吗？

【在 c******o 的大作中提到】

: 基本上我们和二爷的完全不一样。。。
: kinesis + mesos + hdfs
: 二爷是
: kafka + yarn + Cassandra
: 我们也在找办法用Cassandra.

z****e
发帖数: 54598

问你一个问题
上次有人说游戏公司用hbase的比较多
你们用了吗？
hbase能tune成ap系统不？
强cp带来的性能上的下降怎么办？
异步？

【在 c******o 的大作中提到】

: 基本上我们和二爷的完全不一样。。。
: kinesis + mesos + hdfs
: 二爷是
: kafka + yarn + Cassandra
: 我们也在找办法用Cassandra.

p*****2
发帖数: 21240

我们是storm直接写

【在 B*****g 的大作中提到】

: 数据怎么搞到C＊上快？

B*****g
发帖数: 34098

晕倒，难道还得上storm，哭死

【在 p*****2 的大作中提到】

: 我们是storm直接写

c******o
发帖数: 1277

我这个组做的不是游戏，是平台。
tracking/reward/payment/website/BI
我们用mongo做 tracking/reward， HDFS/C*做BI

【在 z****e 的大作中提到】

: 问你一个问题
: 上次有人说游戏公司用hbase的比较多
: 你们用了吗？
: hbase能tune成ap系统不？
: 强cp带来的性能上的下降怎么办？
: 异步？

z****e
发帖数: 54598

多谢
不过你们原始数据放在哪？
db里面？
还是没有一个集中的数据库
各个组自己用自己的？
你们payment也用nosql做？transaction怎么办？
自己实现？

【在 c******o 的大作中提到】

: 我这个组做的不是游戏，是平台。
: tracking/reward/payment/website/BI
: 我们用mongo做 tracking/reward， HDFS/C*做BI

c******o
发帖数: 1277

payment mysql
数据当然是各有各的,再互联。

p*****2
发帖数: 21240

可以直接上spark streaming

【在 B*****g 的大作中提到】

: 晕倒，难道还得上storm，哭死

g*********9
发帖数: 1285

C＊是啥？ Cassandra?

【在 B*****g 的大作中提到】

: 数据怎么搞到C＊上快？

z*******3
发帖数: 13709

总要有个像样的server吧？
tomcat之类的，或者main+spring也就是core java那种方式
或者高大上点，有啥jms之类的event driven的一个东西
总有个像样的java程序往cassandra里面写东西吧？
persistence和business logic在不同的layer，如果凑到一起会出问题的
你是不是用store procedure用习惯了？
现在没有了这么一个东西，有些不适应？

【在 B*****g 的大作中提到】

: 晕倒，难道还得上storm，哭死

相关主题
● 以后真的是cassandra spark的天下了？	● 试了下spark，不过如此啊
● Spark + C*	● Cassandra 真是狗屎
● 问二爷一个题外话	● 大牛讲讲mongoDB这种开源的怎么赚钱？
进入Programming版参与讨论

j********x
发帖数: 2330

你们在用kinesis？

【在 c******o 的大作中提到】

: 基本上我们和二爷的完全不一样。。。
: kinesis + mesos + hdfs
: 二爷是
: kafka + yarn + Cassandra
: 我们也在找办法用Cassandra.

B*****g
发帖数: 34098

除非迫不得已，否则就用已经有的

【在 z*******3 的大作中提到】

: 总要有个像样的server吧？
: tomcat之类的，或者main+spring也就是core java那种方式
: 或者高大上点，有啥jms之类的event driven的一个东西
: 总有个像样的java程序往cassandra里面写东西吧？
: persistence和business logic在不同的layer，如果凑到一起会出问题的
: 你是不是用store procedure用习惯了？
: 现在没有了这么一个东西，有些不适应？

z****e
发帖数: 54598

这样的话，你们会被vendor lockin的
因为同一个vendor肯定会有一堆相关产品
最后会被这种插管吸血吸死，我见过好几个这样的公司了
自己动手，哪怕构架一塌糊涂，但是survive的几率要大很多

【在 B*****g 的大作中提到】

: 除非迫不得已，否则就用已经有的

(共1页)

进入Programming版参与讨论

相关主题
● Cassandra 真是狗屎	● Time series big data大家觉得怎么存储比较好？
● 大牛讲讲mongoDB这种开源的怎么赚钱？	● AWS cloud 内部做log，大家怎么设计
● Flink Sparks Next Wave of Distributed Data Processing	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● MapReduce 的思想是怎么发明的？	● Hadoop/HBase/HDFS三驾马车过时了吗？
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● 如何提高Spark在Yarn上的内存使用率
● Hadoop 和Python的数据分析包哪个更值得学习？	● 大牛能不能讨论下cassandra， Hbase， MongoDB的对比
● 搞不懂为什么大牛说Hbase不如C*?	● 怎样schedule spark application
● 学scala和spark需要什么pre req?	● 以后真的是cassandra spark的天下了？

相关话题的讨论汇总
话题: spark话题: hdfs话题: hadoop话题: standalone话题: cassandra

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天