C********e 发帖数: 492 | 1 training testing 比例不论怎么分,每个stage的input data都是一样多,速度都差不
多(当然计算结果是没错的)。。。只有当我真的把输入数据分好了然后只读入
training data,速度才会快起来。。
这个太bug了吧。。。。 |
|
|
x***4 发帖数: 1815 | 3 randomSplit 是lazy的,会马上返回。真正的sample的操作会在你call rdd action的
时候才会执行。
)) |
|
|
l******u 发帖数: 1 | 5 好像应该不行把,这是由scala语法决定的,lazy的变量只有在需要它的时候才会被调
用执行 |
|
|
C********e 发帖数: 492 | 7 那在这种情况下,这种设计岂不是让速度慢了不少。。。 |
|
n*******0 发帖数: 2002 | 8 听说可以避免不必要的计算,应该是会让速度加快的233. |
|
d****n 发帖数: 12461 | 9 只有交互环境才会觉得慢吧。lazy的好处是把执行和优化分来了,当然有人也可能觉得
后台优化是个缺点。 |
|
S***s 发帖数: 104 | 10 You used seed for randomSplit, so it's no longer random and it's testable
)) |
|
|
n*****3 发帖数: 1584 | 12 不太同意这个。
我们组正在搭这个system。 流计算 用 sparkstream。 mllib for 机器学习。 |
|
M********0 发帖数: 1230 | 13 没关系
h2o是并行ML库 包括经典ML算法和DL算法 做的比spark上的MLlib要好 用的人就很多
h2o支持tf和caffe 但好像只是gpu优化 |
|
z****e 发帖数: 54598 | 14 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Hadoop,Big Data,Spark
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,
都是未来的希望啊。
http://hadoop.apache.org/who.html
# Spark
Spark今年大... 阅读全帖 |
|
o**********e 发帖数: 18403 | 15 【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖 |
|
z*******3 发帖数: 13709 | 16 你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
但是最后结果正确,但是工作中是不能这样搞的
因为r比python还要慢非常多,python已经很慢了
可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
我觉得你投入20年,可能能有点小成
还有就是,python如果不想搞的话,可以看看scala
scala比java难,难很多,但是至少这样可以上jvm和spark这些
然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事
ml和stat虽然有重叠,但是理论和应用,毕竟还是两回事 |
|
j*****n 发帖数: 1545 | 17 而且现在大部分公司里面真正 production 用的 lib 都是 java/scala/C++ 实现的.
MLlib 是个很好的例子. 只会R就只能做 PPT, 做个 story, 做不出产品的. 当然有些
岗位做 PPT, make up 一个 story 也就够了。 |
|
z*******3 发帖数: 13709 | 18 你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
但是最后结果正确,但是工作中是不能这样搞的
因为r比python还要慢非常多,python已经很慢了
可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
我觉得你投入20年,可能能有点小成
还有就是,python如果不想搞的话,可以看看scala
scala比java难,难很多,但是至少这样可以上jvm和spark这些
然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事
ml和stat虽然有重叠,但是理论和应用,毕竟还是两回事 |
|
j*****n 发帖数: 1545 | 19 而且现在大部分公司里面真正 production 用的 lib 都是 java/scala/C++ 实现的.
MLlib 是个很好的例子. 只会R就只能做 PPT, 做个 story, 做不出产品的. 当然有些
岗位做 PPT, make up 一个 story 也就够了。 |
|
c****t 发帖数: 19049 | 20 这贴怎么又爬上来了。这话题是赵老师的最爱,jvm打败c++, blahblah。归根结底这是
gpu派和cluster派的斗争。cluster派借着高大上公司们以及memory便宜推行hadoop,
spark,招揽一批ds。mllib主要是用python吧。cluster派最大的优势是不用自己重造
算法。cluster派最大的劣势是就算spark再翻个跟头,commodity server们的处理速度
也就那么回事儿。gpu派最大的困难是绝大多数现有算法,包括ml算法并没有给gpu那种
处理结构优化,那种结构本来就是设计来处理video和animation的。有资源的话发展出
什么gpu-spark也不是难事。谁战胜誰还是看资源再分配。
找工作嘛,尽快学好一个就行了。别觉着有啥便宜没占着会后悔,那就不会犹豫更不会
后悔 |
|
|
m***r 发帖数: 359 | 22 http://ml.memect.com/weekly/2015-03-15/
## 2015-03-15 星期日,完整版 28 条
NICAR15主题报告Hands-on with machine learning @爱可可-爱生活
《七周七并发模型》 @睡眼惺忪的小叶先森
两个R语言教程 @2gua
经典老文Fast unfolding of communities in large networks @爱可可-爱生活
用PageRank计算世界杯参赛球队排行榜 @爱可可-爱生活
## 2015-03-14 星期六,完整版 28 条
LINE模型大规模网络降维公布论文以及源代码 @chuckpku
概率图模型基础总结 @数盟社区
Sum-Product Networks @爱可可-爱生活
IJCV 综述:图模型中的离散能量最小化 @赵家平USC
Stanford基于神经网络的自然语言依存关系解析器 @爱可可-爱生活
## 2015-03-13 星期五,完整版 32 条
多智能自然语言处理 @刘知远THU
计算机辅助翻译推荐作者 @青鸟leo翻译之声
FaceNet人脸识别 @爱可可... 阅读全帖 |
|
s****h 发帖数: 3979 | 23 data frame API 1.3 才有。
弄进一个dense vector很直接:
import org.apache.spark.mllib.linalg.{Vector, Vectors}
val path = "~/test60m.txt"
val minPartitions = 4
val parsed = sc.textFile(path, minPartitions)
.map(_.trim)
.filter(line => !(line.isEmpty || line.startsWith("#")))
val a = parsed.map({ line =>
val fields = line.split(" ")
(fields(0).toInt, fields(1))})
val dataLoad = a.map(x => (x._1, Vectors.dense(x._2.split(',').map(_.
toDouble))))
可是sparse vector就不会了。
不知道怎么结合下面的例子
// Create a dense vector (... 阅读全帖 |
|
H****E 发帖数: 254 | 24 https://databricks.com/blog/2014/07/16/new-features-in-mllib-in-spark-1-0.
html
"So storage-wise, the sparse format is better than the dense format when
more than 1/3 of the elements are zero. However, assuming that the data can
be fit into memory in both formats, we usually need sparser data to observe
a speedup, because the sparse format is not as efficient as the dense format
in computation. Our experience suggests a sparsity of around 10%, while the
exact switching point for the running time... 阅读全帖 |
|
M*P 发帖数: 6456 | 25 貌似很多方法比如SVM,Kmeans都在MLlib里实现了,但是具体是什么算法,连个
reference都没给。
有没有什么书综述这些算法的? |
|
发帖数: 1 | 26 【IT求职成功分享视频】
https://youtube.com/playlist?list=PLRMhRP6Z9GjQMa3LmGMOgoYfuzErGOifZ
【微软Dynamic CRM 项目求职和证书】
OTO(线下线上授课)
最权威的CRM专家
最火爆炙热的职场和市场需求
最精品高效的IT技术
最有效的IT求职培训
知识传递,面试,求职一包到底,100%获取微软CRM 认证证书
云,移动和大数据三大技术趋势以及社交化的发展正在构建新型的IT生态环境,也进一
步将个人与企业紧密地联系起来,使得企业运营和决策能够及时反应来自市场的需求,
让客户满意度最大化,也让企业本身经济效益最大化。这一切都与CRM的广泛成熟运用
密不可分。何为CRM? CRM是Customer Relationship Management的缩写,也就是客户
关系管理。这是一套集销售管理、市场管理、服务管理、敏捷市场反应以及客户商机数
据分析挖掘的平台和技术。
微软的基于云技术的Dynamic CRM平台是目前CRM解
决方案的领导者,被广泛地应用于各个行业如银行、金融、证券、制造业、政府、医疗
... 阅读全帖 |
|
发帖数: 1 | 27 不知这样的大数据培训怎样?我想求职Big Data Engineer 或Big data Architect. 先
谢了!
视频介绍:https://www.youtube.com/watch?v=_H84B0z-pj0
和内容
1. Hadoop (HDFS, MapReduce, Hive, Pig, Kafka, Yarn etc)
2. Big Data and it's BI (ETL, Sqoop, OLTP/OLAP, Cube, Power Pivot, Tableau,
Power BI)
3. Machine Learning and Spark (Spark SQL, Stream, MLlib) |
|
x*********3 发帖数: 63 | 28 Qualifications
- Ph.D. in Data Mining, Machine Learning,
Statistics, Econometrics, Industry Engineering or
related fields; or M.S. in related fields
;with 2+ years experience of applying data
mining techniques to real business problems
Strong working knowledge of data mining and
machine learning techniques. Experience working on
statistical/machine learning package such as
Scikit-Learn, MLlib, Mahout
- Coding experience in python/SQL/R/Java/C#, experience
with Hadoop and Spark is a plus
- Creati... 阅读全帖 |
|