coltzhao的公司还在用mongo吗？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - coltzhao的公司还在用mongo吗？

相关主题
● MapReduce 的思想是怎么发明的？	● 学Hadoop还是spark
● 试了下spark，不过如此啊	● NOSQL排名
● 举几个java换成C++的例子	● goodbug和coltzhao大牛能不能给一个backend的定义？
● Spark PK Akka 完胜呀	● 那个 distributed file sysyem 适合我的需求
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● 傻逼太监懂个屁C＊
● spark is slower than java Mapreduce --scala big bulls pls advise	● 看来couchbase跟mongo是真的干上了
● Flink Sparks Next Wave of Distributed Data Processing	● 貌似couchbase的性能很牛逼吗
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● 看来我的感觉不错，Hbase下降明显呀

相关话题的讨论汇总
话题: spark话题: mongo话题: coltzhao话题: mapreduce话题: data

进入Programming版参与讨论

(共1页)

z****e
发帖数: 54598

感觉自从spark出来之后，感觉mongo和couch的两拨人马都萧条了很多
接口不一致，没有人买他们的服务了，apache太猛了
cassandra如火如荼啊，我们也准备淘汰couchbase了
所以想看看coltzhao的公司，是不是还保留有mongo
如果是的话，如何让spark的rdd用上mongo呢？
rdd好像目前搞个cassandra都挺麻烦的，但是不是不能搞
还是可以搞的，mongo和couch我就不知道怎么搞了

p*****2
发帖数: 21240

可以把mongo数据先导到hdfs
cassandra connnector 已经算容易用得了相对来说 spark 还是太早期

【在 z****e 的大作中提到】

: 感觉自从spark出来之后，感觉mongo和couch的两拨人马都萧条了很多
: 接口不一致，没有人买他们的服务了，apache太猛了
: cassandra如火如荼啊，我们也准备淘汰couchbase了
: 所以想看看coltzhao的公司，是不是还保留有mongo
: 如果是的话，如何让spark的rdd用上mongo呢？
: rdd好像目前搞个cassandra都挺麻烦的，但是不是不能搞
: 还是可以搞的，mongo和couch我就不知道怎么搞了

n*****3
发帖数: 1584

但好像大家都在上spark

【在 p*****2 的大作中提到】

: 可以把mongo数据先导到hdfs
: cassandra connnector 已经算容易用得了相对来说 spark 还是太早期

z****e
发帖数: 54598

我也是这样搞的，本来想直接在couchbase上弄spark
后来搞了半死吐血，搞不定，算了，还是不继续折腾了

【在 p*****2 的大作中提到】

: 可以把mongo数据先导到hdfs
: cassandra connnector 已经算容易用得了相对来说 spark 还是太早期

p*****2
发帖数: 21240

大势所趋
先占住队

【在 n*****3 的大作中提到】

: 但好像大家都在上spark

g*******o
发帖数: 156

最近的mongo days上，mongodb公司已经有了mongo-spark-connector了。
2.8还会把collection level lock变成document－level lock，performance会大幅改
进。
应该还能活跃一段时间吧～～～

【在 z****e 的大作中提到】

r*******k
发帖数: 44

看见大家提到spark，溜进来说说观点。同mapreduce 比起来，spark 的确提供了一种
新的计算方式，但他的应用场景有很大的限制, 看一下quora的问答：
http://www.quora.com/What-are-use-cases-for-spark-vs-hadoop
基本上有2点：
1. From the machine learning side：比如说你有很大的data, and want to apply
different ML algorithms to the same piece of data iteratively。mapred 基本上
需要load data from file system every time. spark 则可以保证这些data in
memory to avoid io. 在这种场景下，spark 可以带来极大的performance 提升。
2. Interactive Analytics: still, load some data in memory and do something
iteratively.
第一点我完全同意, 这是我们 team 唯一的用法。对第2点，基本上没人会这么用：对
于一个大型的分布计算系统，最重要的就是allocate and share limited resource
among a computer pool，设想一个兄弟load a big piece of data in memory, run
some scala, then go home without quit the job ... data operation team 非疯掉
不可。除非这个cluster 就是为你一个“interactively”独用的。
设想一个十分常见的 data analytics use case: scan a lot of data, do grouping,
filtering, and aggregate, spark 和 mapreduce 的 performance 会完全一样（不
会更好）。而这些use case, 已经有了更好的方案，像是impala, etc.
我不认为spark可以替代mapred。当spark 开始出现的时候，大家基本还认为是个不错
的idea 来补充hadoop, 后来spark的炒作简直是太离谱了. databrics 居然能拿 50M，
简直是fucking crazy market。
Berkley AMPLab 这些小伙子都挺聪明（尤其是Matei），但eventually they need to
go through all the development shit mapreduce encountered. 希望不会变成另一
个mapr.
也许是我没理解spark 的精髓？ :)

p*****2
发帖数: 21240

就spark这么简单易用就比mapreduce强几条街

apply

【在 r*******k 的大作中提到】

: 看见大家提到spark，溜进来说说观点。同mapreduce 比起来，spark 的确提供了一种
: 新的计算方式，但他的应用场景有很大的限制, 看一下quora的问答：
: http://www.quora.com/What-are-use-cases-for-spark-vs-hadoop
: 基本上有2点：
: 1. From the machine learning side：比如说你有很大的data, and want to apply
: different ML algorithms to the same piece of data iteratively。mapred 基本上
: 需要load data from file system every time. spark 则可以保证这些data in
: memory to avoid io. 在这种场景下，spark 可以带来极大的performance 提升。
: 2. Interactive Analytics: still, load some data in memory and do something
: iteratively.

d*******r
发帖数: 3299

hadoop 那一堆东西把简单的 idea implement 成这么大一坨，感觉很不爽
玩 spark 又要上 scala, 很纠结 +_+

【在 p*****2 的大作中提到】

: 就spark这么简单易用就比mapreduce强几条街
:
: apply

r*******k
发帖数: 44

> 就spark这么简单易用就比mapreduce强几条街
你的意思是说spark的scala interface 比用java 写mapred code 简单？还是说spark
比mapred easier to deploy and manage?
``强几条街'' 完全是你个人的感觉还是大家普遍的看法？就像hive 和shark 的出发点
，都是希望提供一个更友好的数据访问方法，但实际执行和使用起来就是另一会儿事儿
了。
如果你只是喜欢scala来写mapreducde，这点无法说明spark实现本身如何出色。况且现
在多数人直接使用pig之类更高层的一些query language.
第二个问题就更不好说了，有真的production usage 吗？yahoo lab 不算啊，那种十
个八个node cluster也不算啊
我也觉得spark想法不错，某些场景很有用。但他们现在有点吹过了，每次看他们说比
hadoop 快100倍就头疼，我不知道他们到时如何能够更够圆这个说法。terasort比
hadoop快100倍？

【在 p*****2 的大作中提到】

: 就spark这么简单易用就比mapreduce强几条街
:
: apply

相关主题
● spark is slower than java Mapreduce --scala big bulls pls advise	● 学Hadoop还是spark
● Flink Sparks Next Wave of Distributed Data Processing	● NOSQL排名
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● goodbug和coltzhao大牛能不能给一个backend的定义？
进入Programming版参与讨论

p*****2
发帖数: 21240

scala挺好玩的其实
可挖掘的东西很多
当然看你怎么用我现在正在规范化规范以后学习就容易多了

【在 d*******r 的大作中提到】

: hadoop 那一堆东西把简单的 idea implement 成这么大一坨，感觉很不爽
: 玩 spark 又要上 scala, 很纠结 +_+

p*****2
发帖数: 21240

代码简单 deploy也简单
简单就是卖点复杂的东西早晚要淘汰速度是不是快100倍倒是其次

spark

【在 r*******k 的大作中提到】

: > 就spark这么简单易用就比mapreduce强几条街
: 你的意思是说spark的scala interface 比用java 写mapred code 简单？还是说spark
: 比mapred easier to deploy and manage?
: ``强几条街'' 完全是你个人的感觉还是大家普遍的看法？就像hive 和shark 的出发点
: ，都是希望提供一个更友好的数据访问方法，但实际执行和使用起来就是另一会儿事儿
: 了。
: 如果你只是喜欢scala来写mapreducde，这点无法说明spark实现本身如何出色。况且现
: 在多数人直接使用pig之类更高层的一些query language.
: 第二个问题就更不好说了，有真的production usage 吗？yahoo lab 不算啊，那种十
: 个八个node cluster也不算啊

z****e
发帖数: 54598

关键是yarn上弄ml很恶心
啥都要自己动手，很麻烦
而且hadoop sql不管是hive还是pig
都做得不三不四的
虽然说hdfs离真正的real time处理，还有很长一段距离
但是hive和pig也慢得可以了
mapreduce现在沦为一个batch工具
这里面显然有很大的提升空间
spark至少说rdd模型就把这个给做了
然后再谈sql, r和ml这些上层建筑
我觉得很make sense，把rdd看成一个cache就是了
分布式每层都做一个cache很正常
db，web/app server这些都有内嵌的cache
而mapreduce则没有
现在主流公司集体转向spark，都全力支持spark
固然有这样那样的问题，但是比起hadoop的mapreduce
感觉是要好很多了，spark上再搞sql这些，才是the way to go

apply

【在 r*******k 的大作中提到】

z****e
发帖数: 54598

我对hadoop最大的抱怨就是hdfs跟mapreduce结合过于紧密
分开的话，其实没那么复杂
但是分开又不符合hadoop整个项目组的利益
又大又全几乎是所有项目的陷阱
往往到后面，你只用其中十分之一的东西
另外上spark真不用scala
用轮子不需要懂得怎么造轮子
你用spark，python都可以，为啥非要scala？
对scala唯一要求就是down下来，设置一下SCALA_HOME就可以了
如果觉得java没有shell的话
打开eclipse就可以当一个复杂化的shell用
python和scala都有shell

【在 d*******r 的大作中提到】

: hadoop 那一堆东西把简单的 idea implement 成这么大一坨，感觉很不爽
: 玩 spark 又要上 scala, 很纠结 +_+

z****e
发帖数: 54598

俺对databricks融资多少钱一点意见没有
你想啊，mongodb有啥东西？
基本上是把以前db做的东西重新做一遍
分布式其实本质就是，这个玩意以前不能分布，要分布
必然有tradeoff，那么就看牺牲哪一块而已了
db主要问题是尾大不掉，什么都做了
完全没考虑到分布式的场景，那现在要改，改起来就痛苦了
nosql的公司就抓住这个机会，重新把轮子造一遍，其实没啥新意
你看mongo忽悠了多少钱去，现在市值都12亿了
databricks用的数学比mongo这些nosql公司深多了
才50m，太少了
主要是你不能用mapreduce那个眼光看这家公司
你要看到machine learning，这个是多火爆的一个topic
这代表了future，databaricks融资五千万都不为过
因为这个东西站在时代的前沿，这个东西，别人没做过
才有得搞，今年炸药生理卫生奖给了John O'Keefe
这个就是做神经网络的Hebb的学生的学生
spark的mllib做下去，就会接轨Hebb的那些理论
很快就有那种science的感觉了

apply

【在 r*******k 的大作中提到】

z****e
发帖数: 54598

现在支持pig，hive的金主们都转向sparksql了
而且pig和hive本身的应用就有大量重合
database和data warehouse的差异并不是那么大
现在统一成一个sparksql，方便很多
当然苦的就是现在在prod.里面用了hive&pig的公司
尾大不掉，要改挺麻烦的
sparkr将会是下一个很有搞头的东西
但是r非常大，统计的方法非常多
这个需要很长时间来完善
mllib目前只是text analysis，但是也做得差不多了
下一步是deep learning
再往后其实就跟很多生物里面神经科学
cs里面搞ai的wsn弄的东西差不多了
这就开始接触比较麻烦痛苦的高等数学了
对于nosql你想了解深入一点，adv. database学过
知道database是怎么造出来的，nosql就没有秘密了
顶多加一点分布式算法，分布式算法为基础
再去弄text analysis，了解点统计，这就是big data入门了
然后是deep learning，一点一点接近生物phd
生物统计已经可以接轨了，当然再往后很难说
陈章良的救星就快出现了，要不然老骂它
丫的21世纪是生物的世纪坑了不少人

spark

【在 r*******k 的大作中提到】

z****e
发帖数: 54598

分布式和神经网络居然会相似
这个非常出乎意料之外，我以前一直以为生物是生物
cs是cs，现在我不这么看了
只是觉得生物转行生物统计，再转行做软件，反而非常合适
尤其是前一段看到某个生物phd，发现她搞的东西
几乎就是我们平常弄的东西，生物可能还真的是将来
分布式搞下去，以后就是造一个skynet出来
看谁不爽，就造几个州长出来屠杀人类

c******o
发帖数: 1277

still mongodb
Web service glue together play/kinesis/spark/redshift
Weare testing 50 nodes m3.large, may use up to 400 nodes

B*****g
发帖数: 34098

小声问，你每天上班吗？

【在 z****e 的大作中提到】

: 分布式和神经网络居然会相似
: 这个非常出乎意料之外，我以前一直以为生物是生物
: cs是cs，现在我不这么看了
: 只是觉得生物转行生物统计，再转行做软件，反而非常合适
: 尤其是前一段看到某个生物phd，发现她搞的东西
: 几乎就是我们平常弄的东西，生物可能还真的是将来
: 分布式搞下去，以后就是造一个skynet出来
: 看谁不爽，就造几个州长出来屠杀人类

z****e
发帖数: 54598

上啊，麻痹的还在做datanode
烦死了，我上网时候就在上班

【在 B*****g 的大作中提到】

: 小声问，你每天上班吗？

d******e
发帖数: 2265

asdf

【在 z****e 的大作中提到】

s****y
发帖数: 503

Deep learning is our best shot at progress towards real AI.

(共1页)

进入Programming版参与讨论

相关主题
● 看来我的感觉不错，Hbase下降明显呀	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● 话说hbase是不是用的不多了？	● spark is slower than java Mapreduce --scala big bulls pls advise
● 准备上Spray了	● Flink Sparks Next Wave of Distributed Data Processing
● 哈哈 adp用芒果了。这下eventual consistency好玩了。求奖金多发一个０.	● 感觉flink出来之后，hadoop就显得不怎么再需要了
● MapReduce 的思想是怎么发明的？	● 学Hadoop还是spark
● 试了下spark，不过如此啊	● NOSQL排名
● 举几个java换成C++的例子	● goodbug和coltzhao大牛能不能给一个backend的定义？
● Spark PK Akka 完胜呀	● 那个 distributed file sysyem 适合我的需求

相关话题的讨论汇总
话题: spark话题: mongo话题: coltzhao话题: mapreduce话题: data

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天