由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 关于 SPARK, 问二爷peking2 和其他大牛一问题
相关主题
感觉flink出来之后,hadoop就显得不怎么再需要了如何提高Spark在Yarn上的内存使用率
Hadoop 和Python的数据分析包哪个更值得学习?大牛能不能讨论下cassandra, Hbase, MongoDB的对比
搞不懂为什么大牛说Hbase不如C*?怎样schedule spark application
学scala和spark需要什么pre req?以后真的是cassandra spark的天下了?
Time series big data大家觉得怎么存储比较好?Spark + C*
AWS cloud 内部做log,大家怎么设计问二爷一个题外话
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?试了下spark,不过如此啊
Hadoop/HBase/HDFS三驾马车过时了吗?Cassandra 真是狗屎
相关话题的讨论汇总
话题: spark话题: hdfs话题: hadoop话题: standalone话题: cassandra
进入Programming版参与讨论
1 (共1页)
S*******e
发帖数: 525
1
你们是用standalone mode, 还是over Hadoop/HDFS? 要是standalone mode, 怎么处
理‘cluster’ 的 filesystem?
用了别人的10个datanode的Hadoop cluster 试SPARK。 Count records in files
with SPARK, 只需要4分钟(1 billion records)。 曾用 Hadoop's MR在40个
datanode上至少要用 三十几分钟。这个该死的40datanode现在试不了SPARK -- 老给我
出错.
现在, 自己组里想搭建一个小的spark cluster。 不知是用standalone mode, 还是
over hdfs。
c******o
发帖数: 1277
2
over hdfs
B*****g
发帖数: 34098
3
yarn

【在 S*******e 的大作中提到】
: 你们是用standalone mode, 还是over Hadoop/HDFS? 要是standalone mode, 怎么处
: 理‘cluster’ 的 filesystem?
: 用了别人的10个datanode的Hadoop cluster 试SPARK。 Count records in files
: with SPARK, 只需要4分钟(1 billion records)。 曾用 Hadoop's MR在40个
: datanode上至少要用 三十几分钟。这个该死的40datanode现在试不了SPARK -- 老给我
: 出错.
: 现在, 自己组里想搭建一个小的spark cluster。 不知是用standalone mode, 还是
: over hdfs。

S*******e
发帖数: 525
4
谢各位大牛。
p*****2
发帖数: 21240
5

我们是standalone然后C*
我们公司会上yarn

【在 S*******e 的大作中提到】
: 谢各位大牛。
B*****g
发帖数: 34098
6
有用hdfs吗?

【在 p*****2 的大作中提到】
:
: 我们是standalone然后C*
: 我们公司会上yarn

c******o
发帖数: 1277
7
基本上我们和二爷的完全不一样。。。
kinesis + mesos + hdfs
二爷是
kafka + yarn + Cassandra
我们也在找办法用Cassandra.
p*****2
发帖数: 21240
8

也考虑。据说yarn上有优化。

【在 B*****g 的大作中提到】
: 有用hdfs吗?
p*****2
发帖数: 21240
9

datastax的人很难缠

【在 c******o 的大作中提到】
: 基本上我们和二爷的完全不一样。。。
: kinesis + mesos + hdfs
: 二爷是
: kafka + yarn + Cassandra
: 我们也在找办法用Cassandra.

B*****g
发帖数: 34098
10
数据怎么搞到C*上快?

【在 p*****2 的大作中提到】
:
: datastax的人很难缠

相关主题
AWS cloud 内部做log,大家怎么设计如何提高Spark在Yarn上的内存使用率
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?大牛能不能讨论下cassandra, Hbase, MongoDB的对比
Hadoop/HBase/HDFS三驾马车过时了吗?怎样schedule spark application
进入Programming版参与讨论
z****e
发帖数: 54598
11
这是打算弃用mongo的一种表达吗?

【在 c******o 的大作中提到】
: 基本上我们和二爷的完全不一样。。。
: kinesis + mesos + hdfs
: 二爷是
: kafka + yarn + Cassandra
: 我们也在找办法用Cassandra.

z****e
发帖数: 54598
12
问你一个问题
上次有人说游戏公司用hbase的比较多
你们用了吗?
hbase能tune成ap系统不?
强cp带来的性能上的下降怎么办?
异步?

【在 c******o 的大作中提到】
: 基本上我们和二爷的完全不一样。。。
: kinesis + mesos + hdfs
: 二爷是
: kafka + yarn + Cassandra
: 我们也在找办法用Cassandra.

p*****2
发帖数: 21240
13
我们是storm直接写

【在 B*****g 的大作中提到】
: 数据怎么搞到C*上快?
B*****g
发帖数: 34098
14
晕倒,难道还得上storm,哭死

【在 p*****2 的大作中提到】
: 我们是storm直接写
c******o
发帖数: 1277
15
我这个组做的不是游戏,是平台。
tracking/reward/payment/website/BI
我们用mongo做 tracking/reward, HDFS/C*做BI

【在 z****e 的大作中提到】
: 问你一个问题
: 上次有人说游戏公司用hbase的比较多
: 你们用了吗?
: hbase能tune成ap系统不?
: 强cp带来的性能上的下降怎么办?
: 异步?

z****e
发帖数: 54598
16
多谢
不过你们原始数据放在哪?
db里面?
还是没有一个集中的数据库
各个组自己用自己的?
你们payment也用nosql做?transaction怎么办?
自己实现?

【在 c******o 的大作中提到】
: 我这个组做的不是游戏,是平台。
: tracking/reward/payment/website/BI
: 我们用mongo做 tracking/reward, HDFS/C*做BI

c******o
发帖数: 1277
17
payment mysql
数据当然是各有各的,再互联。
p*****2
发帖数: 21240
18

可以直接上spark streaming

【在 B*****g 的大作中提到】
: 晕倒,难道还得上storm,哭死
g*********9
发帖数: 1285
19
C* 是啥? Cassandra?

【在 B*****g 的大作中提到】
: 数据怎么搞到C*上快?
z*******3
发帖数: 13709
20
总要有个像样的server吧?
tomcat之类的,或者main+spring也就是core java那种方式
或者高大上点,有啥jms之类的event driven的一个东西
总有个像样的java程序往cassandra里面写东西吧?
persistence和business logic在不同的layer,如果凑到一起会出问题的
你是不是用store procedure用习惯了?
现在没有了这么一个东西,有些不适应?

【在 B*****g 的大作中提到】
: 晕倒,难道还得上storm,哭死
相关主题
以后真的是cassandra spark的天下了?试了下spark,不过如此啊
Spark + C*Cassandra 真是狗屎
问二爷一个题外话大牛讲讲mongoDB这种开源的怎么赚钱?
进入Programming版参与讨论
j********x
发帖数: 2330
21
你们在用kinesis?

【在 c******o 的大作中提到】
: 基本上我们和二爷的完全不一样。。。
: kinesis + mesos + hdfs
: 二爷是
: kafka + yarn + Cassandra
: 我们也在找办法用Cassandra.

B*****g
发帖数: 34098
22
除非迫不得已,否则就用已经有的

【在 z*******3 的大作中提到】
: 总要有个像样的server吧?
: tomcat之类的,或者main+spring也就是core java那种方式
: 或者高大上点,有啥jms之类的event driven的一个东西
: 总有个像样的java程序往cassandra里面写东西吧?
: persistence和business logic在不同的layer,如果凑到一起会出问题的
: 你是不是用store procedure用习惯了?
: 现在没有了这么一个东西,有些不适应?

z****e
发帖数: 54598
23
这样的话,你们会被vendor lockin的
因为同一个vendor肯定会有一堆相关产品
最后会被这种插管吸血吸死,我见过好几个这样的公司了
自己动手,哪怕构架一塌糊涂,但是survive的几率要大很多

【在 B*****g 的大作中提到】
: 除非迫不得已,否则就用已经有的
1 (共1页)
进入Programming版参与讨论
相关主题
Cassandra 真是狗屎Time series big data大家觉得怎么存储比较好?
大牛讲讲mongoDB这种开源的怎么赚钱?AWS cloud 内部做log,大家怎么设计
Flink Sparks Next Wave of Distributed Data ProcessingHadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
MapReduce 的思想是怎么发明的?Hadoop/HBase/HDFS三驾马车过时了吗?
感觉flink出来之后,hadoop就显得不怎么再需要了如何提高Spark在Yarn上的内存使用率
Hadoop 和Python的数据分析包哪个更值得学习?大牛能不能讨论下cassandra, Hbase, MongoDB的对比
搞不懂为什么大牛说Hbase不如C*?怎样schedule spark application
学scala和spark需要什么pre req?以后真的是cassandra spark的天下了?
相关话题的讨论汇总
话题: spark话题: hdfs话题: hadoop话题: standalone话题: cassandra