x***4 发帖数: 1815 | |
z****0 发帖数: 4413 | 2 一般吧
【在 x***4 的大作中提到】 : Data bricks怎样?
|
a********5 发帖数: 1631 | |
c******n 发帖数: 4965 | 4 有戏
你搞明白它的架构才会 appreciate 这个公司的价值。 hadoop 本身有意义的就剩下一
个 yarn 了 (其实就是80年代就有的东西重写了) hadoop MR 跟 spark 比太粗糙,
新的 Tez , 还有 hortonworks 的 SQL product 都不用 hadoop MR 了, 那 hadoop
MR 80%的应用都没了, 就要这些新的 framework 来填补。
4年内肯定能发财
【在 x***4 的大作中提到】 : Data bricks怎样?
|
a********5 发帖数: 1631 | 5 然而是开原
,
hadoop
【在 c******n 的大作中提到】 : 有戏 : 你搞明白它的架构才会 appreciate 这个公司的价值。 hadoop 本身有意义的就剩下一 : 个 yarn 了 (其实就是80年代就有的东西重写了) hadoop MR 跟 spark 比太粗糙, : 新的 Tez , 还有 hortonworks 的 SQL product 都不用 hadoop MR 了, 那 hadoop : MR 80%的应用都没了, 就要这些新的 framework 来填补。 : 4年内肯定能发财
|
c******n 发帖数: 4965 | 6 ft hortonworks cloudera 不是开源?
【在 a********5 的大作中提到】 : 然而是开原 : : , : hadoop
|
h****e 发帖数: 2125 | 7 牛公司。
【在 x***4 的大作中提到】 : Data bricks怎样?
|
s******c 发帖数: 1920 | 8 yarn和mesos的竞争还算有优势
hadoop mr和spark已经胜负分出了无悬念了
,
hadoop
【在 c******n 的大作中提到】 : 有戏 : 你搞明白它的架构才会 appreciate 这个公司的价值。 hadoop 本身有意义的就剩下一 : 个 yarn 了 (其实就是80年代就有的东西重写了) hadoop MR 跟 spark 比太粗糙, : 新的 Tez , 还有 hortonworks 的 SQL product 都不用 hadoop MR 了, 那 hadoop : MR 80%的应用都没了, 就要这些新的 framework 来填补。 : 4年内肯定能发财
|
h**********n 发帖数: 897 | 9 4年悬。。
现在年景好,一个cache都能出一家公司,4年后怎么样很难说。 |
w******g 发帖数: 189 | |
|
|
g*****g 发帖数: 34805 | 11 这些公司都是一个模式,卖技术支持,卖consulting,卖certificate, 最重要的,弄
个企业版管理UI,附加服务啥的要 license.
只要用户多,几个 B的市值不成问题。这条路从 Redhat就开始了。
【在 w******g 的大作中提到】 : 数据砖技术很牛,但是商业模式是啥?
|
y*d 发帖数: 2226 | 12 big data啥的毕竟还是相对小众的市场,和linux的市场差太远了
而且这个行业里已经有不少人了,这和redhat刚开始的时候没有什么竞争对手是不同的
参考一下,同行业出道更早的Hortonworks才1B的市值
Spark点子不错,但是然并卵
本身是个开源的项目,没有自己的版权。如果Clodera过几个月出一个Spark+,一点都
不奇怪
更何况Spark现在还不是很成熟,主要的卖点还只是好的idea,而不是功能完善,运行稳
定,支持丰富
idea能吸引吊丝科技公司,但这些公司自己技术力量强,不会付consulting,或
service的钱
老土公司愿意出钱,但是要的是成熟通用省心的产品。Spark离这个还有很大距离
三年后Spark或者类似Spark的东西成熟的时候,最好的distribution最好的Service未
必是databricks做的
【在 g*****g 的大作中提到】 : 这些公司都是一个模式,卖技术支持,卖consulting,卖certificate, 最重要的,弄 : 个企业版管理UI,附加服务啥的要 license. : 只要用户多,几个 B的市值不成问题。这条路从 Redhat就开始了。
|
y*d 发帖数: 2226 | 13 参考伯克利的另外两个著名项目
FreeBSD和Postgres
说实话这两个软件真心很不错,用户也比所哟big data用户加起来还多几倍
但是伯克利的叫兽从这两个项目赚到钱了吗? |
g*****g 发帖数: 34805 | 14 Hadoop的 committer相对分散,做支持的公司多。Spark相对集中。另外更快的解决方
案意味着适应性越广,附加值越高。
startup没有一定之数,但 H能值 1B,D 的前景就是 几个 B.
行稳
【在 y*d 的大作中提到】 : big data啥的毕竟还是相对小众的市场,和linux的市场差太远了 : 而且这个行业里已经有不少人了,这和redhat刚开始的时候没有什么竞争对手是不同的 : 参考一下,同行业出道更早的Hortonworks才1B的市值 : Spark点子不错,但是然并卵 : 本身是个开源的项目,没有自己的版权。如果Clodera过几个月出一个Spark+,一点都 : 不奇怪 : 更何况Spark现在还不是很成熟,主要的卖点还只是好的idea,而不是功能完善,运行稳 : 定,支持丰富 : idea能吸引吊丝科技公司,但这些公司自己技术力量强,不会付consulting,或 : service的钱
|
g*****g 发帖数: 34805 | 15 竞争,Linux, MySQL 是更牛的解决方案。MySQL 在史前时代还卖了5亿。Spark没有像
样的竞争。
【在 y*d 的大作中提到】 : 参考伯克利的另外两个著名项目 : FreeBSD和Postgres : 说实话这两个软件真心很不错,用户也比所哟big data用户加起来还多几倍 : 但是伯克利的叫兽从这两个项目赚到钱了吗?
|
c******n 发帖数: 4965 | 16 FreeBSD 没有人用, 只有yahoo 用, 后来也换到linux
就是redhat 这种核心的东西,放到狗一类的大用户,人家自己内部有足够强的内核
developer, 根本用不着你。
Postgres 我不知道, 但是mysql 的公司(black cat 还是什么的) 赚了很多啊。
另外这些公司火不火,50% 是hype, 是VC 和stock market 吹起来的, 你要有
business model, revenue, 但这不是唯一,下一步你必须能吹起来成为火的中心,像
cloud, big data, 什么都是“概念” ------- stock market analyst 懂个屁, 他就
是看周围的人是不是都在追一个新概念。
FreeBSD, Postgres, 甚至mysql , 都是很定型,很1980 的东西, 当然不能成为吹的
poster child
【在 y*d 的大作中提到】 : 参考伯克利的另外两个著名项目 : FreeBSD和Postgres : 说实话这两个软件真心很不错,用户也比所哟big data用户加起来还多几倍 : 但是伯克利的叫兽从这两个项目赚到钱了吗?
|
y*d 发帖数: 2226 | 17 Hadoop的committer多说明用户多,关注的人多
几个月前databricks的小孩还很自豪地逢人便说我们现在有200个committer了,我们有
一个“community”了
现在相对集中反而成优势了
databricks的这些人把一个apache开源项目看成私产,拒不接受其他公司提交的新
feature或者bug fix(担心失去对项目的控制力)才是个大问题。
spark搞得再死一点,别人另起炉灶的概率就再大一点
至于你那个多少B的估值,没有数据支撑,没有市场分析。你只要高兴,说100B又如何?
【在 g*****g 的大作中提到】 : Hadoop的 committer相对分散,做支持的公司多。Spark相对集中。另外更快的解决方 : 案意味着适应性越广,附加值越高。 : startup没有一定之数,但 H能值 1B,D 的前景就是 几个 B. : : 行稳
|
c******n 发帖数: 4965 | 18 他现在牛逼哄哄, 主要是还没有出来竞争的对手, 有很多号称in-memory execution
framework, 但都是niche application use case, 比如giraph, tez ,presto, 没有
直接替代hadoop MR 这种basic building block 的。
再过个1,2年,有对手了, 大家用得多了,对它的源码看明白,就知道它有多少是
hype, 剩下的部分,也会有人rewrite from scratch
何?
【在 y*d 的大作中提到】 : Hadoop的committer多说明用户多,关注的人多 : 几个月前databricks的小孩还很自豪地逢人便说我们现在有200个committer了,我们有 : 一个“community”了 : 现在相对集中反而成优势了 : databricks的这些人把一个apache开源项目看成私产,拒不接受其他公司提交的新 : feature或者bug fix(担心失去对项目的控制力)才是个大问题。 : spark搞得再死一点,别人另起炉灶的概率就再大一点 : 至于你那个多少B的估值,没有数据支撑,没有市场分析。你只要高兴,说100B又如何?
|
c******n 发帖数: 4965 | 19 其实spark 那个RDD 概念, scalding 里面就有, 只不过后者没有把in-memory 的噱头
加进去, 没有火起来
execution
【在 c******n 的大作中提到】 : 他现在牛逼哄哄, 主要是还没有出来竞争的对手, 有很多号称in-memory execution : framework, 但都是niche application use case, 比如giraph, tez ,presto, 没有 : 直接替代hadoop MR 这种basic building block 的。 : 再过个1,2年,有对手了, 大家用得多了,对它的源码看明白,就知道它有多少是 : hype, 剩下的部分,也会有人rewrite from scratch : : 何?
|
y*d 发帖数: 2226 | 20 FreeBSD在90年代是很火的,当时用的人比linux多,Jobs的OS X也用了不少FreeBSD的
代码
(好吧,我承认我也没那么老。90年代的部分,是我听公司的老马工讲的)
Postgres麻烦你别传进到mysql啊。postgres在功能上,性能上都比mysql好。但是
mysql的商业
推广更成功。这正好说明了,好的idea和赚钱是两码事
作为老码农,我不过是看过的更多一些。2000年的时候,你说mach(现在还是OS X的内
核),unix是很1970的东西,但是postgres和freebsd可是当时的热门玩意啊。
postgres的ORDBMS和Geometry在90年代后期被认为是数据库的未来,就好比spark现在
被认为是big data的未来
各种概念,如你所说,就是一波一波的炒。我只是举了两个栗子,说明很好的软件,很
好的idea未必就真能赚钱
【在 c******n 的大作中提到】 : FreeBSD 没有人用, 只有yahoo 用, 后来也换到linux : 就是redhat 这种核心的东西,放到狗一类的大用户,人家自己内部有足够强的内核 : developer, 根本用不着你。 : Postgres 我不知道, 但是mysql 的公司(black cat 还是什么的) 赚了很多啊。 : 另外这些公司火不火,50% 是hype, 是VC 和stock market 吹起来的, 你要有 : business model, revenue, 但这不是唯一,下一步你必须能吹起来成为火的中心,像 : cloud, big data, 什么都是“概念” ------- stock market analyst 懂个屁, 他就 : 是看周围的人是不是都在追一个新概念。 : FreeBSD, Postgres, 甚至mysql , 都是很定型,很1980 的东西, 当然不能成为吹的 : poster child
|
|
|
g*****g 发帖数: 34805 | 21 企业应用,价格本来就不是第一位的,好用才是第一位的。JIRA开源一样乖乖有人交钱
。Android也开源,也有人 fork,但是除了中国上不了狗服务其他地区还不是得乖乖跟
狗合作,用 play store. Amazon的就火不起来。只要Spark没有像样竞争,D值几个B
妥妥的。
何?
【在 y*d 的大作中提到】 : Hadoop的committer多说明用户多,关注的人多 : 几个月前databricks的小孩还很自豪地逢人便说我们现在有200个committer了,我们有 : 一个“community”了 : 现在相对集中反而成优势了 : databricks的这些人把一个apache开源项目看成私产,拒不接受其他公司提交的新 : feature或者bug fix(担心失去对项目的控制力)才是个大问题。 : spark搞得再死一点,别人另起炉灶的概率就再大一点 : 至于你那个多少B的估值,没有数据支撑,没有市场分析。你只要高兴,说100B又如何?
|
c******n 发帖数: 4965 | 22 你根本就不理解databricks 的定位,
它正好是你说的“很好的软件,很好的idea (未必就真能赚钱 那种)" 的反面。
它的idea一点都不新, 最近几年hadoop echo system 所有人都不约而同地向in-
memory processing 发展(Tez, stinger, presto ..), 它之所以火,正式因为靠上了
这个时髦趋势。
你之前讲的一些例子,正好是你说的 "很好的软件,很
资的时候)。 mach 它再怎么牛, 不做成一个
consumer facing product (OSX), 只能是小众产品。 |
h********3 发帖数: 2075 | 23 同意。data bricks最好的未来样板就是Cloudera这样的hadoop咨询公司。盈利模式决
定了,顶多就也几个B的市价。很难跟FLG比拟。但是,这一切都是在传统咨询公司,例
如IBM,不愿意竞争的基础上。未来一旦有大公司来抢占市场,前景就难说了。做技术
咨询公司,最重要的是客户关系。
行稳
【在 y*d 的大作中提到】 : big data啥的毕竟还是相对小众的市场,和linux的市场差太远了 : 而且这个行业里已经有不少人了,这和redhat刚开始的时候没有什么竞争对手是不同的 : 参考一下,同行业出道更早的Hortonworks才1B的市值 : Spark点子不错,但是然并卵 : 本身是个开源的项目,没有自己的版权。如果Clodera过几个月出一个Spark+,一点都 : 不奇怪 : 更何况Spark现在还不是很成熟,主要的卖点还只是好的idea,而不是功能完善,运行稳 : 定,支持丰富 : idea能吸引吊丝科技公司,但这些公司自己技术力量强,不会付consulting,或 : service的钱
|
y*d 发帖数: 2226 | 24 嗯,作为一个research项目,spark是非常成功的
他们的主要意义在于尝试了一些新的方法。其中一些东西对于企业来说,搞起来有点太
冒险了。很适合Bekeley这种用NSF的钱先去试试水
在spark以及其他一些名气小一些的big data项目验证了各种可能性以后,等到前景更
加明朗,会有公司出来开发一些更成熟,考虑更周全的产品。那个时候才知道鹿死谁手
现在的spark如同70年代的unix, 80年代的mach,90年代的netscape,2000年的PDE
还是属于开路趟地雷的阶段
等到大家把这个路数都看清楚了,好戏才开场
execution
【在 c******n 的大作中提到】 : 他现在牛逼哄哄, 主要是还没有出来竞争的对手, 有很多号称in-memory execution : framework, 但都是niche application use case, 比如giraph, tez ,presto, 没有 : 直接替代hadoop MR 这种basic building block 的。 : 再过个1,2年,有对手了, 大家用得多了,对它的源码看明白,就知道它有多少是 : hype, 剩下的部分,也会有人rewrite from scratch : : 何?
|
y*d 发帖数: 2226 | 25 是,这些个开源big data公司最大的价值其实是在consulting,而不是那个万把行的小
软件
这个行当不赚钱则已,一旦赚钱,IBM、Oracle、Intel跳进来,分分钟造一个先进一代
的产品出来
【在 h********3 的大作中提到】 : 同意。data bricks最好的未来样板就是Cloudera这样的hadoop咨询公司。盈利模式决 : 定了,顶多就也几个B的市价。很难跟FLG比拟。但是,这一切都是在传统咨询公司,例 : 如IBM,不愿意竞争的基础上。未来一旦有大公司来抢占市场,前景就难说了。做技术 : 咨询公司,最重要的是客户关系。 : : 行稳
|
c******n 发帖数: 4965 | 26 spark 绝对不止是 “一个research 项目,有新方法“,
实际上那个组最主要做的东西是mesos ---- 你有听说过这个东东么? 他们花很多精力
做mesos , 成了后说,ok, 我们写一个东西作为demo application 在上面用吧, 作为
一个副产品,spark 出来了。 结果mesos 没人理, spark took off, ----- WHY???
就是因为spark 赶上潮流了, 正好filled the missing puzzle for hadoopMR
replacement.
你说的unix, mach, 在技术先进度,复杂度,比spark 强几个数量级, 问题是没有被
VC/market 吹起来
【在 y*d 的大作中提到】 : 嗯,作为一个research项目,spark是非常成功的 : 他们的主要意义在于尝试了一些新的方法。其中一些东西对于企业来说,搞起来有点太 : 冒险了。很适合Bekeley这种用NSF的钱先去试试水 : 在spark以及其他一些名气小一些的big data项目验证了各种可能性以后,等到前景更 : 加明朗,会有公司出来开发一些更成熟,考虑更周全的产品。那个时候才知道鹿死谁手 : 现在的spark如同70年代的unix, 80年代的mach,90年代的netscape,2000年的PDE : 还是属于开路趟地雷的阶段 : 等到大家把这个路数都看清楚了,好戏才开场 : : execution
|
s******c 发帖数: 1920 | 27 别以为IBM不愿意竞争,IBM是根本没能力竞争。这些老人公司根本没能力跟上spark的
开发节奏。一句话 就是没竞争
【在 h********3 的大作中提到】 : 同意。data bricks最好的未来样板就是Cloudera这样的hadoop咨询公司。盈利模式决 : 定了,顶多就也几个B的市价。很难跟FLG比拟。但是,这一切都是在传统咨询公司,例 : 如IBM,不愿意竞争的基础上。未来一旦有大公司来抢占市场,前景就难说了。做技术 : 咨询公司,最重要的是客户关系。 : : 行稳
|
s******c 发帖数: 1920 | 28 mesos没人理?mesosphere低调而已
他们营收增长的很快
有花街大客户的
【在 c******n 的大作中提到】 : spark 绝对不止是 “一个research 项目,有新方法“, : 实际上那个组最主要做的东西是mesos ---- 你有听说过这个东东么? 他们花很多精力 : 做mesos , 成了后说,ok, 我们写一个东西作为demo application 在上面用吧, 作为 : 一个副产品,spark 出来了。 结果mesos 没人理, spark took off, ----- WHY??? : 就是因为spark 赶上潮流了, 正好filled the missing puzzle for hadoopMR : replacement. : 你说的unix, mach, 在技术先进度,复杂度,比spark 强几个数量级, 问题是没有被 : VC/market 吹起来
|
c******n 发帖数: 4965 | 29 内部消息: IBM 花大投入在跟这个风。
我组里一烙印前段时间刚跳过去, 他们给committer 的privilege .给钱很多
【在 s******c 的大作中提到】 : 别以为IBM不愿意竞争,IBM是根本没能力竞争。这些老人公司根本没能力跟上spark的 : 开发节奏。一句话 就是没竞争
|
y*d 发帖数: 2226 | 30 Hadoop MR缺5个东西
1。好的programming API。这个Hive和cascading多少弥补了一些
2。Workflow,这个google早就有了,但是没开源,也没发paper。Cascading和Apache
Crunch试了下水。Spark在这两个的基础上稍加改进,终于做得像一点样子了
3。in-memory cache / long live service,这个其实是最早的parallel computing就
有的东西。map-reduce为了扩展性、灵活性、容错性砍掉了,反正map-reduce的主要应
用ETL也不要这些。现在presto,spark又试着把这个加回去
4。interactive execution。也是早就有的东西,Google Dremel,Presto, impala,
等等等等
5。Peer to peer通信。这个对于某些应用很重要。目前只有MPI支持。但是MPI比较难
用了
6。实时数据处理。这个方面,Storm其实做得很好,但是相对比较难programming比较
难debug。Spark的折中方案对于Serious的用户不够用,对于业余用户好开发
Spark不是发明了什么革命性的东西,主要是把一些个好的点子加以改进集成到了一起
。特别是1到3,spark做得不错。不同需求的人,现在都能在Spark里找到感兴趣的东西
。这是他们能火起来的原因
但是,是不是Spark就是这些问题的终极解决方案?
我可以肯定的说,不是。Spark只是so far最靠谱的research尝试
至于你说spark的idea不新,我觉得你的标准有点太高了。牛顿还站在巨人肩上呢
iphone也是从2000年的PDA学来的
没有啥技术革新是平地起高楼的
【在 c******n 的大作中提到】 : 你根本就不理解databricks 的定位, : 它正好是你说的“很好的软件,很好的idea (未必就真能赚钱 那种)" 的反面。 : 它的idea一点都不新, 最近几年hadoop echo system 所有人都不约而同地向in- : memory processing 发展(Tez, stinger, presto ..), 它之所以火,正式因为靠上了 : 这个时髦趋势。 : 你之前讲的一些例子,正好是你说的 "很好的软件,很 : 资的时候)。 mach 它再怎么牛, 不做成一个 : consumer facing product (OSX), 只能是小众产品。
|
|
|
s******c 发帖数: 1920 | 31 intel后悔没跟近spark肠子都悔青了
唉 真没想到都这年代了还有人迷信这几个大公司
去github看看他们这个公司提交的pr就知道他们的水平了
【在 y*d 的大作中提到】 : 是,这些个开源big data公司最大的价值其实是在consulting,而不是那个万把行的小 : 软件 : 这个行当不赚钱则已,一旦赚钱,IBM、Oracle、Intel跳进来,分分钟造一个先进一代 : 的产品出来
|
s******c 发帖数: 1920 | 32 我知道
但他们真心招不到牛人 就这么简单
牛人去了也呆不住
【在 c******n 的大作中提到】 : 内部消息: IBM 花大投入在跟这个风。 : 我组里一烙印前段时间刚跳过去, 他们给committer 的privilege .给钱很多
|
y*d 发帖数: 2226 | 33 那个组是做AI的,mesos才是副业 :)
anyway,我同意你你说的,Hadoop MR已经严重老化了,缺陷明显,这个时候spark跳了
出来,吸引了大家的目光。但是再过3年5年,Spark又会被新的东西代替,成不了气候
【在 c******n 的大作中提到】 : spark 绝对不止是 “一个research 项目,有新方法“, : 实际上那个组最主要做的东西是mesos ---- 你有听说过这个东东么? 他们花很多精力 : 做mesos , 成了后说,ok, 我们写一个东西作为demo application 在上面用吧, 作为 : 一个副产品,spark 出来了。 结果mesos 没人理, spark took off, ----- WHY??? : 就是因为spark 赶上潮流了, 正好filled the missing puzzle for hadoopMR : replacement. : 你说的unix, mach, 在技术先进度,复杂度,比spark 强几个数量级, 问题是没有被 : VC/market 吹起来
|
y*d 发帖数: 2226 | 34 Intel在Hive上的贡献还是很大的
另外他们是cloudera的后台老板
在big data consulting这块,cloudera是行业老大
impala做得也不错
另外,如我前面所说的,屌丝科技公司爱用新技术,但是不会付钱;肯付钱的银行、电
信老土公司还就信IBM、Oracle这些。里面搞采购的和IBM、Oracle勾结了几十年了。你
的玩艺好,人家也不买你的
【在 s******c 的大作中提到】 : intel后悔没跟近spark肠子都悔青了 : 唉 真没想到都这年代了还有人迷信这几个大公司 : 去github看看他们这个公司提交的pr就知道他们的水平了
|
l*******m 发帖数: 1096 | 35 D家这回有不同之处。他们的online ds services要开张了
【在 g*****g 的大作中提到】 : 这些公司都是一个模式,卖技术支持,卖consulting,卖certificate, 最重要的,弄 : 个企业版管理UI,附加服务啥的要 license. : 只要用户多,几个 B的市值不成问题。这条路从 Redhat就开始了。
|
y*d 发帖数: 2226 | 36 比A家的AWS何如?
比G家的Cloud何如?
说到运营cloud service,他们比阿里巴巴都不一定比得过
亚麻可以搞EMR,就不能搞ESpark?
【在 l*******m 的大作中提到】 : D家这回有不同之处。他们的online ds services要开张了
|
s******c 发帖数: 1920 | 37 随便看看这个版都能看到花街公司招聘都要求cassandra了
银行 金融 电信 石油 这些传统行业 里面也分成不同部门,为了搞大数据上open
source的多了,而且也是愿意付费的。
【在 y*d 的大作中提到】 : Intel在Hive上的贡献还是很大的 : 另外他们是cloudera的后台老板 : 在big data consulting这块,cloudera是行业老大 : impala做得也不错 : 另外,如我前面所说的,屌丝科技公司爱用新技术,但是不会付钱;肯付钱的银行、电 : 信老土公司还就信IBM、Oracle这些。里面搞采购的和IBM、Oracle勾结了几十年了。你 : 的玩艺好,人家也不买你的
|
l*******m 发帖数: 1096 | 38 他们用AWS,gui做得不错,面向data analytics, ml. 用户不同,不是面向dev的
【在 y*d 的大作中提到】 : 比A家的AWS何如? : 比G家的Cloud何如? : 说到运营cloud service,他们比阿里巴巴都不一定比得过 : 亚麻可以搞EMR,就不能搞ESpark?
|
f*****d 发帖数: 2285 | 39 终于有个明白人了
[在 ysd (ysd) 的大作中提到:]
:Hadoop MR缺5个东西
:1。好的programming API。这个Hive和cascading多少弥补了一些
:........... |
w******g 发帖数: 189 | 40 ysd 说的workflow指的是什么?google和databricks都有什么解决方案? |
|
|
f*****d 发帖数: 2285 | 41 https://cloud.google.com/dataflow/
[在 wookoong (悟空) 的大作中提到:]
:ysd 说的workflow指的是什么?google和databricks都有什么解决方案?
:
:........... |
m*********2 发帖数: 178 | 42 赞分析
Apache
【在 y*d 的大作中提到】 : Hadoop MR缺5个东西 : 1。好的programming API。这个Hive和cascading多少弥补了一些 : 2。Workflow,这个google早就有了,但是没开源,也没发paper。Cascading和Apache : Crunch试了下水。Spark在这两个的基础上稍加改进,终于做得像一点样子了 : 3。in-memory cache / long live service,这个其实是最早的parallel computing就 : 有的东西。map-reduce为了扩展性、灵活性、容错性砍掉了,反正map-reduce的主要应 : 用ETL也不要这些。现在presto,spark又试着把这个加回去 : 4。interactive execution。也是早就有的东西,Google Dremel,Presto, impala, : 等等等等 : 5。Peer to peer通信。这个对于某些应用很重要。目前只有MPI支持。但是MPI比较难
|
f****D 发帖数: 4745 | 43 这公司超牛逼的啊!
楼主你要是进去了,能内推一下我吗?
跪求啊! |
s******c 发帖数: 1920 | 44 google做flume对外叫dataflow有年头了 没太宣传而已
就发了片非常misleading的paper。
结果被spark抢了风头
【在 f*****d 的大作中提到】 : https://cloud.google.com/dataflow/ : [在 wookoong (悟空) 的大作中提到:] : :ysd 说的workflow指的是什么?google和databricks都有什么解决方案? : : : :...........
|