关于amplab的讨论汇总 - 话题女王

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
# Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本，比如增强
Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
[Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面是比较稳定了，但也可以说是瓶颈了。
[Apache Hadoop Project Members]http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，也有不少
国人上榜。
# Spar... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，都是未来的希望啊。
# Spark
Spark今年大放溢彩，Spark简单说就是内存计算（或者迭代式计算，DAG计算,流式计算
）框架，
MapReduce因效率低下大家经常嘲笑， Spark号称性能超Hadoop百倍，算法实现... 阅读全帖

w**z
发帖数: 8232

来自主题: Programming版 - IBM is all into Spark

On Monday, IBM announced it will invest about $300 million over the next few
years and assign 3,500 people to help develop an up-and-coming technology
known as Spark.
IBM called Spark "the most significant open source project of the next
decade."
This was very good news for a two-year-old startup called Databricks,
founded by the people that invented Spark, and who, today, officially
launched their commercial version of Spark.
Spark is a free and open source software program managed by the organ... 阅读全帖

o**********e
发帖数: 18403

来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (在路上), 信区: JobHunting
标题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖

z****e
发帖数: 54598

来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (在路上), 信区: JobHunting
标题: Hadoop Spark 学习小结[2014版]
关键字: Hadoop,Big Data,Spark
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，
都是未来的希望啊。
http://hadoop.apache.org/who.html
# Spark
Spark今年大... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - 2015年硅谷最火的高科技创业公司都有哪些？

硅谷最火的高科技创业公司都有哪些？
在硅谷大家非常热情的谈创业谈机会，我也通过自己的一些观察和积累，看到了不少最
近几年涌现的热门创业公司。我给大家一个列表，这个是华尔街网站的全世界创业公司
融资规模评选（http://graphics.wsj.com/billion-dollar-club/）。它本来的标题是billion startup club，我在去年国内讲座也分享过，不到一年的时间，截至到2015年1月17日，现在的排名和规模已经发生了很大的变化。首先，估值在10Billlon的达到了7家，而一年前一家都没有。其次，第一名是中国人家喻户晓的小米，第三，前20名中，绝大多数（8成在美国，在加州，在硅谷，在旧金山！）比如Uber, Airbnb, Dropbox, Pinterest. 第四里面也有不少相似模式成功的，比如Flipkart就是印度市场的淘宝，Uber与Airbnb都是共享经济的范畴。所以大家还是可以在移动(Uber)，大数据（Palantir），消费级互联网，通讯(Snapchat)，支付(Square)，O2O App里面寻找下大机会。这里面很多公司我都亲自面... 阅读全帖

发帖数: 1

来自主题: Military版 - 就是体制外的聪明人太多

AMPlab露射俱乐部发来贺电

: 开源就是卢瑟们抱团取暖

z****e
发帖数: 54598

来自主题: JobHunting版 - 现在是不是C++不怎么值钱？

java跟斯坦福渊源流长
sun的全城就是斯坦福大学网络
java很多项目包括语言本身，就是美帝很多牛大学的参与
除了james gosling就是cmu的phd
现在spark也是ucb的amplab的东西
倒是其它语言的贡献者或者创立者都不是美帝什么顶级学校出来的

z****e
发帖数: 54598

来自主题: JobHunting版 - 现在是不是C++不怎么值钱？

d********w
发帖数: 363

来自主题: JobHunting版 - 硅谷地区中型 Hot Startup List

Databricks 目前是风头正上，超豪华阵容，Berkeley系主任，Mit助理教授，AMPLab主
力全上，得到所有Hadoop大佬Cloudera, Hortonworks, MapR支持，连Cloudera
founder都说spark是未来方向，放下他们自己家的impala，全力支持Spark，Spark
summit就来了上千人，Databricks cloud演讲很惊艳

d********w
发帖数: 363

来自主题: JobHunting版 - 硅谷地区中型 Hot Startup List

t**r
发帖数: 3428

来自主题: JobHunting版 - 哪家的DS最有技术含量？

amplab

c******o
发帖数: 1277

来自主题: Programming版 - 又一个big data framework written in Scala

这个挺火，主要是Berkeley AMPLab和Yahoo!在搞。背后有钱在推。
它的Spark上层还加了 Streaming/SQL like DB/GraphDB，看起来很牛。不过似乎大公
司用的多。

c******o
发帖数: 1277

来自主题: Programming版 - Scala or clojure

there is no problem to use either.
the key is what project you gonna do.
you should use clojure for prototype/fast project/not known project
for long term/big team/well understood project, i definitely say scala.
clojure has one way to do things and very clean. but that way is not the
best for everything.
scala is very complex if you want to use all powers. but it really the only
thing you can use like a Haskell and at the same time use like a clean power
Java. a good plan IMO can make scala co... 阅读全帖

r*******k
发帖数: 44

来自主题: Programming版 - coltzhao的公司还在用mongo吗？

看见大家提到spark，溜进来说说观点。同mapreduce 比起来，spark 的确提供了一种
新的计算方式，但他的应用场景有很大的限制, 看一下quora的问答：
http://www.quora.com/What-are-use-cases-for-spark-vs-hadoop
基本上有2点：
1. From the machine learning side：比如说你有很大的data, and want to apply
different ML algorithms to the same piece of data iteratively。mapred 基本上
需要load data from file system every time. spark 则可以保证这些data in
memory to avoid io. 在这种场景下，spark 可以带来极大的performance 提升。
2. Interactive Analytics: still, load some data in memory and do something
iteratively.
第一... 阅读全帖

f*****u
发帖数: 308

来自主题: Programming版 - 这两天的AMPLab搞的AMPCamp没人参加吗

可以看Live streamhttp://www.ustream.tv/channel/ampcamp-5,打算好好学学Spark,有大牛推荐学习路线么?

z****e
发帖数: 54598

来自主题: Programming版 - R李怎么搞big data和deep learning？

所以说一堆人就是嘴巴上吹牛可以
扯蛋什么fp之类的在行
真遇到问题，还是要看java党怎么搞
r看spark r
http://amplab-extras.github.io/SparkR-pkg/
目前做到的是可以从r里面call spark的func
spark有了，你自然就可以搞hdfs了
deep learning你要自己实现
spark目前还没有这个lib
但是r有不少统计库，你可以用
however
你要小心，r的io狠蛋疼，经常全部读入内存
big data这样搞内存直接爆了
所以说r目前只是一个toy，你别太当真
另外jvm上的renjin你也可以看看，但是离开下放prod还有很久的距离

f******2
发帖数: 2455

来自主题: Programming版 - 总结一下kaggle比赛

Berkeley的两个人做了一个sparknet的项目 https://github.com/amplab/SparkNet
如果读读他们的paper的话，http://arxiv.org/abs/1511.06051，就会发现其实想法非常简单：因为同步的开销（例如10秒）通常大于一个minibatch计算的开销（例如1秒），那sparknet的做法是，在local连续做几次minibatch后再同步，从而降低同步的副作用。
但是我对这两个哥们儿最后的实验结论有些疑问：
1. 连续local算几次会不会造成本来收敛的东西不收敛了？（这个需要ML的内行帮忙
解答一下）
2. 图7里面发现iteration和训练收敛速度没有关系，难道要瞎选参数？
谢谢
关于ensemble的说法，你的意思是说同时对几种不同的网络训练，取平均值？这部分没
有看懂。

一般模型没那么大，每个节点能看到所有param, 可能部分数据。难点是同步update太

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习日报

机器学习日报 2015-01-30
@好东西传送门出品, 过刊见
http://ml.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅机器学习日报
更好看的HTML版
http://ml.memect.com/archive/2015-01-30/short.html
1) 【全新ArnetMiner上线】 by @ArnetMiner
关键词：学术搜索
全新ArnetMiner上线，最新代号AMiner，从学术网络中挖掘深度知识、面向科技大数据
的挖掘。收集近4000万作者信息、8000万论文信息、1亿多引用关系、链接近8百万知识
点；支持专家搜索、机构排名、科研成果评价、会议排名。期待您的关注和建议【系统
持续改进中】。 @唐杰THU @好东西传送门
2) 【MinHash】 by @赵印_Eason
关键词：算法, 聚类
《MinHash》 MinHash是一种概率意义的聚类算法，快速实现，有随机因素。在推荐场
景： It assigns a pair of users to the same cluster... 阅读全帖

p*********k
发帖数: 13

来自主题: DataSciences版 - Michael Jordan 发表意见了

MJ的PGM在2000中期就基本上不太搞了，搞得多的其实还是daphne koller（她现在也不
搞了）。后面的帖子有人说MJ是Bayesian，其实他自己说他也不是。他写PGM的时候是
，写consistency的时候又不是了。我感觉他现在渐渐远离Bayesian了。看他说的error
bar，就没几个Bayesian会这么关心的。说到big data，诞生spark的AMPlab，MJ也是
director。他其实也没miss什么，他主要是理论和应用，系统方面贡献不大罢了。
interview里最赞同的就是error bar了，看看现在的data driven的公司, 基本就是
improve 一下ROC就觉得自己萌萌的。也不知这些曲线的variantion有多大，在什么样
的情况下有多大。单个的产品也就罢了，反正可以roll back。要是有别的产品依赖于
这个产品输出，那这个variantion是会放大的。到时候就是各种推诿，各种politics，
然后就是各自为政。要想真正scale data driven的approach, 还是有好长的路要走。

big

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

大数据日报 2015-03-05
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-05/short.html
1) 【成为一名数据分析师的新手指导】 by @伯乐在线官方微博
关键词：分析
《成为一名数据分析师的新手指导》本文是著名学习网站Udacity的数据分析基础性文
章。由于Udacity的就业导向，不同于单纯介绍学习路径，文章还从职业人士的角度讲
述数据分析的方方面面。文章同时附有视频，不失为一篇好的介绍文 [1] @东邪他爹译
[1] http://blog.jobbole.com/84606/
2) 【关于Docker你应该知道的10件事】 by @LUPA开源社区
关键词：计算框架, 数据库, 虚拟化, Docker, Hadoop, MongoDB, 容器
【关于Docker你应该知道的10件事】如果你在企业IT工作，那你会听说过Docker。即... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天