由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)
相关主题
Hadoop Spark 学习小结[2014版] (转载)海量数据,”大数据”,高频数据及其它---从“Big Data"说开去
Re: MapR Technologies continue hiring a lot of positions (转载)公司有一些hadoop的session,大家看看那些值得去听
做个调查了解一下,有公司用HP Vertica 和 Hana 这些 data base的么?Big data是下一个大坑吗
有没有谁自己买服务器组建几个clusters跑hadoop大数据的?请问大家有没有直接用java全程写mapreduce的程序的?
如何提高Spark在Yarn上的内存使用率如何学习Hadoop?
big data software engineer或者data scientist 工作机会推荐 (转载)油管上这个教学视频介绍Hadoop HDFS讲得不错!
大数据这个东西,如果用hive,岂不是跟SQL差不多了一个白痴问题,如何把access的表格 导入hadoop里面去
现在是不是Spark最火?解密hadoop文件系统数据存储方式
相关话题的讨论汇总
话题: spark话题: hadoop话题: apache话题: berkeley话题: graphx
进入DataSciences版参与讨论
1 (共1页)
z****e
发帖数: 54598
1
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Hadoop,Big Data,Spark
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,
都是未来的希望啊。
http://hadoop.apache.org/who.html
# Spark
Spark今年大放溢彩,Spark简单说就是内存计算(或者迭代式计算,DAG计算,流式计算
)框架,
MapReduce因效率低下大家经常嘲笑, Spark号称性能超Hadoop百倍,算法实现仅有其1
/10或1/100
Reynold 作为Spark核心开发者,介绍
http://www.csdn.net/article/2013-04-26/2815057-Spark-Reynold
http://www.csdn.net/article/2014-08-07/2821098-6-sparkling-feat
起源于2010年Berkeley AMPLab,发表在hotcloud上
https://www.usenix.org/legacy/events/hotcloud10/tech/full_papers/Zaharia.pdf
BTW: 这个实验室非常厉害,做大数据,云计算,跟工业界结合很紧密,比如Twitter也
Berkeley开了门课程
http://blogs.ischool.berkeley.edu/i290-abdt-s12/
还有个BDAS (Bad Ass)引以为傲: https://amplab.cs.berkeley.edu/software/
在2013年,这些大牛出动把Berkeley AMPLab的人拉出去成立了Databricks,半年就做
了2次summit
参会1000人,根据CTO说 Spark新增代码量活跃度今年远远超过了Hadoop本身,马上要
推出商业化产品Cloud
Spark核心数据结构:
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for
In-Memory Cluster Computing
https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf
Spark目前是1.0.2最新版本:https://spark.apache.org/docs/1.0.2/
目前还有一些子项目,比如 Spark SQL, Spark Streaming, MLLib, Graphx
如;http://spark.apache.org/streaming/
工业界也引起广泛兴趣,国内Taobao, baidu也开始使用:
https://cwiki.apache.org/confluence/display/SPARK/Powered+By+Spark
还有一些第三方的项目基于Spark上面
Shark - Hive and SQL on top of Spark
MLbase - Machine Learning research project on top of Spark
BlinkDB - a massively parallel, approximate query engine built on top of
Shark and Spark
GraphX - a graph processing & analytics framework on top of Spark (GraphX
has been merged into Spark 0.9)
Apache Mesos - Cluster management system that supports running Spark
Tachyon - In memory storage system that supports running Spark
Apache MRQL - A query processing and optimization system for large-scale,
distributed data analysis, built on top of Apache Hadoop, Hama, and Spark
OpenDL - A deep learning algorithm library based on Spark framework. Just
kick off.
SparkR - R frontend for Spark
Spark Job Server - REST interface for managing and submitting Spark jobs on
the same cluster
Apache Spark支持4种分布式部署方式,分别是Amazon EC2, standalone、spark on
mesos和 spark on YARN
至于如何入门,还是得好好看官方文档,上面有入门,搭建环境,Summit上的视频也是
http://spark-summit.org/2014/
也有个training视频:
http://spark-summit.org/2014/training
今年的Summit 回顾
http://www.csdn.net/article/2014-07-17/2820713
今年最叫好的demo是Dtabricks Cloud, 把twitter上面实时收集的数据做作为machine
learning素材,
用类似IPython notebook,可视化呈现惊艳,而搭建整个sampling系统就花了20分钟!
http://databricks.com/cloud
最后CSDN上面也有个Spark专栏,大家可以多去看看
spark.csdn.net
s*****r
发帖数: 1426
2
赞!

【在 z****e 的大作中提到】
: 【 以下文字转载自 JobHunting 讨论区 】
: 发信人: dongfeiwww (在路上), 信区: JobHunting
: 标 题: Hadoop Spark 学习小结[2014版]
: 关键字: Hadoop,Big Data,Spark
: 发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
: 基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
: 受技术饕餮大餐
: #Hadoop
: Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
: Resource Manager HA,

l****i
发帖数: 398
3
Databricks Cloud犀利的一塌糊涂,具体看视频:
https://www.youtube.com/watch?v=dJQ5lV5Tldw#t=2481
d**********3
发帖数: 1186
4
Thanks for sharing.
c******g
发帖数: 4889
5
哪些公司用得上这个啊?是不是只有大公司才用?
m********1
发帖数: 12
6
Spark 和 Hapdoop 有什么不同呀? 最近刚刚听说spark, 比较好奇
m******e
发帖数: 201
7
FG不用,L不知道,二流的软更不会用,aws会提供平台,亚麻自己用不用不知道,就算
用也是极少数组
估计只有三流公司会用,不是因为好用,而是里面的人要给简历加分以后跳槽
Amp lab的东西作为学术灌水很好找发考题,学生搞搞很好。工业应用还差太远

【在 c******g 的大作中提到】
: 哪些公司用得上这个啊?是不是只有大公司才用?
n*****3
发帖数: 1584
8
spark performance very good ah,
why you said 工业应用还差太远? All the startups are talking about it,
FG不用 is mostly due to very likely they have similar stuff already,
does G use hadhoop? see how popular hadoop is ...
the spark is the future hadoop

【在 m******e 的大作中提到】
: FG不用,L不知道,二流的软更不会用,aws会提供平台,亚麻自己用不用不知道,就算
: 用也是极少数组
: 估计只有三流公司会用,不是因为好用,而是里面的人要给简历加分以后跳槽
: Amp lab的东西作为学术灌水很好找发考题,学生搞搞很好。工业应用还差太远

z*******3
发帖数: 13709
9
re
spark上的lib才是真正的big data
hadoop那个只能算是分布式file system和crud而已

【在 n*****3 的大作中提到】
: spark performance very good ah,
: why you said 工业应用还差太远? All the startups are talking about it,
: FG不用 is mostly due to very likely they have similar stuff already,
: does G use hadhoop? see how popular hadoop is ...
: the spark is the future hadoop

T*****u
发帖数: 7103
10
学习SPARK跟党走!
1 (共1页)
进入DataSciences版参与讨论
相关主题
解密hadoop文件系统数据存储方式如何提高Spark在Yarn上的内存使用率
通过日志分析yarn app实际内存用量big data software engineer或者data scientist 工作机会推荐 (转载)
求Hadoop项目练手大数据这个东西,如果用hive,岂不是跟SQL差不多了
诚心请教Spark EMR配置现在是不是Spark最火?
Hadoop Spark 学习小结[2014版] (转载)海量数据,”大数据”,高频数据及其它---从“Big Data"说开去
Re: MapR Technologies continue hiring a lot of positions (转载)公司有一些hadoop的session,大家看看那些值得去听
做个调查了解一下,有公司用HP Vertica 和 Hana 这些 data base的么?Big data是下一个大坑吗
有没有谁自己买服务器组建几个clusters跑hadoop大数据的?请问大家有没有直接用java全程写mapreduce的程序的?
相关话题的讨论汇总
话题: spark话题: hadoop话题: apache话题: berkeley话题: graphx