|
d********w 发帖数: 363 | 2 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,都是未来的希望啊。
# Spark
Spark今年大放溢彩,Spark简单说就是内存计算(或者迭代式计算,DAG计算,流式计算
)框架,
MapReduce因效率低下大家经常嘲笑, Spark号称性能超Hadoop百倍,算法实现... 阅读全帖 |
|
w**z 发帖数: 8232 | 3 On Monday, IBM announced it will invest about $300 million over the next few
years and assign 3,500 people to help develop an up-and-coming technology
known as Spark.
IBM called Spark "the most significant open source project of the next
decade."
This was very good news for a two-year-old startup called Databricks,
founded by the people that invented Spark, and who, today, officially
launched their commercial version of Spark.
Spark is a free and open source software program managed by the organ... 阅读全帖 |
|
o**********e 发帖数: 18403 | 4 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖 |
|
z****e 发帖数: 54598 | 5 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Hadoop,Big Data,Spark
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,
都是未来的希望啊。
http://hadoop.apache.org/who.html
# Spark
Spark今年大... 阅读全帖 |
|
d********w 发帖数: 363 | 6 硅谷最火的高科技创业公司都有哪些?
在硅谷大家非常热情的谈创业谈机会,我也通过自己的一些观察和积累,看到了不少最
近几年涌现的热门创业公司。我给大家一个列表,这个是华尔街网站的全世界创业公司
融资规模评选(http://graphics.wsj.com/billion-dollar-club/)。它本来的标题是billion startup club,我在去年国内讲座也分享过,不到一年的时间,截至到2015年1月17日,现在的排名和规模已经发生了很大的变化。首先,估值在10Billlon的达到了7家,而一年前一家都没有。其次,第一名是中国人家喻户晓的小米,第三,前20名中,绝大多数(8成在美国,在加州,在硅谷,在旧金山!)比如Uber, Airbnb, Dropbox, Pinterest. 第四 里面也有不少相似模式成功的,比如Flipkart就是印度市场的淘宝,Uber与Airbnb都是共享经济的范畴。所以大家还是可以在移动(Uber),大数据(Palantir),消费级互联网,通讯(Snapchat),支付(Square),O2O App里面寻找下大机会。这里面很多公司我都亲自面... 阅读全帖 |
|
发帖数: 1 | 7 AMPlab露射俱乐部发来贺电
: 开源就是卢瑟们抱团取暖
|
|
z****e 发帖数: 54598 | 8 java跟斯坦福渊源流长
sun的全城就是斯坦福大学网络
java很多项目包括语言本身,就是美帝很多牛大学的参与
除了james gosling就是cmu的phd
现在spark也是ucb的amplab的东西
倒是其它语言的贡献者或者创立者都不是美帝什么顶级学校出来的 |
|
z****e 发帖数: 54598 | 9 java跟斯坦福渊源流长
sun的全城就是斯坦福大学网络
java很多项目包括语言本身,就是美帝很多牛大学的参与
除了james gosling就是cmu的phd
现在spark也是ucb的amplab的东西
倒是其它语言的贡献者或者创立者都不是美帝什么顶级学校出来的 |
|
d********w 发帖数: 363 | 10 Databricks 目前是风头正上,超豪华阵容,Berkeley系主任,Mit助理教授,AMPLab主
力全上,得到所有Hadoop大佬Cloudera, Hortonworks, MapR支持,连Cloudera
founder都说spark是未来方向,放下他们自己家的impala,全力支持Spark,Spark
summit就来了上千人,Databricks cloud演讲很惊艳 |
|
d********w 发帖数: 363 | 11 Databricks 目前是风头正上,超豪华阵容,Berkeley系主任,Mit助理教授,AMPLab主
力全上,得到所有Hadoop大佬Cloudera, Hortonworks, MapR支持,连Cloudera
founder都说spark是未来方向,放下他们自己家的impala,全力支持Spark,Spark
summit就来了上千人,Databricks cloud演讲很惊艳 |
|
|
c******o 发帖数: 1277 | 13 这个挺火,主要是Berkeley AMPLab和Yahoo!在搞。背后有钱在推。
它的Spark上层还加了 Streaming/SQL like DB/GraphDB,看起来很牛。不过似乎大公
司用的多。 |
|
c******o 发帖数: 1277 | 14 there is no problem to use either.
the key is what project you gonna do.
you should use clojure for prototype/fast project/not known project
for long term/big team/well understood project, i definitely say scala.
clojure has one way to do things and very clean. but that way is not the
best for everything.
scala is very complex if you want to use all powers. but it really the only
thing you can use like a Haskell and at the same time use like a clean power
Java. a good plan IMO can make scala co... 阅读全帖 |
|
r*******k 发帖数: 44 | 15 看见大家提到spark,溜进来说说观点。同mapreduce 比起来,spark 的确提供了一种
新的计算方式,但他的应用场景有很大的限制, 看一下quora的问答:
http://www.quora.com/What-are-use-cases-for-spark-vs-hadoop
基本上有2点:
1. From the machine learning side: 比如说你有很大的data, and want to apply
different ML algorithms to the same piece of data iteratively。mapred 基本上
需要load data from file system every time. spark 则可以保证这些data in
memory to avoid io. 在这种场景下,spark 可以带来极大的performance 提升。
2. Interactive Analytics: still, load some data in memory and do something
iteratively.
第一... 阅读全帖 |
|
|
z****e 发帖数: 54598 | 17 所以说一堆人就是嘴巴上吹牛可以
扯蛋什么fp之类的在行
真遇到问题,还是要看java党怎么搞
r看spark r
http://amplab-extras.github.io/SparkR-pkg/
目前做到的是可以从r里面call spark的func
spark有了,你自然就可以搞hdfs了
deep learning你要自己实现
spark目前还没有这个lib
但是r有不少统计库,你可以用
however
你要小心,r的io狠蛋疼,经常全部读入内存
big data这样搞内存直接爆了
所以说r目前只是一个toy,你别太当真
另外jvm上的renjin你也可以看看,但是离开下放prod还有很久的距离 |
|
f******2 发帖数: 2455 | 18 Berkeley的两个人做了一个sparknet的项目 https://github.com/amplab/SparkNet
如果读读他们的paper的话,http://arxiv.org/abs/1511.06051,就会发现其实想法非常简单:因为同步的开销(例如10秒)通常大于一个minibatch计算的开销(例如1秒),那sparknet的做法是,在local连续做几次minibatch后再同步,从而降低同步的副作用。
但是我对这两个哥们儿最后的实验结论有些疑问:
1. 连续local算几次会不会造成本来收敛的东西不收敛了?(这个需要ML的内行帮忙
解答一下)
2. 图7里面发现iteration和训练收敛速度没有关系,难道要瞎选参数?
谢谢
关于ensemble的说法,你的意思是说同时对几种不同的网络训练,取平均值?这部分没
有看懂。
一般模型没那么大,每个节点能看到所有param, 可能部分数据。难点是同步update太 |
|
m***r 发帖数: 359 | 19 机器学习日报 2015-01-30
@好东西传送门 出品, 过刊见
http://ml.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-30/short.html
1) 【全新ArnetMiner上线】 by @ArnetMiner
关键词:学术搜索
全新ArnetMiner上线,最新代号AMiner,从学术网络中挖掘深度知识、面向科技大数据
的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识
点;支持专家搜索、机构排名、科研成果评价、会议排名。期待您的关注和建议【系统
持续改进中】。 @唐杰THU @好东西传送门
2) 【MinHash】 by @赵印_Eason
关键词:算法, 聚类
《MinHash》 MinHash是一种概率意义的聚类算法,快速实现,有随机因素。 在推荐场
景: It assigns a pair of users to the same cluster... 阅读全帖 |
|
p*********k 发帖数: 13 | 20 MJ的PGM在2000中期就基本上不太搞了,搞得多的其实还是daphne koller(她现在也不
搞了)。后面的帖子有人说MJ是Bayesian,其实他自己说他也不是。他写PGM的时候是
,写consistency的时候又不是了。我感觉他现在渐渐远离Bayesian了。看他说的error
bar,就没几个Bayesian会这么关心的。说到big data,诞生spark的AMPlab,MJ也是
director。他其实也没miss什么,他主要是理论和应用,系统方面贡献不大罢了。
interview里最赞同的就是error bar了,看看现在的data driven的公司, 基本就是
improve 一下ROC就觉得自己萌萌的。也不知这些曲线的variantion有多大,在什么样
的情况下有多大。 单个的产品也就罢了,反正可以roll back。要是有别的产品依赖于
这个产品输出,那这个variantion是会放大的。到时候就是各种推诿,各种politics,
然后就是各自为政。要想真正scale data driven的approach, 还是有好长的路要走。
big |
|
|
|