由买买提看人间百态

topics

全部话题 - 话题: mllib
首页 上页 1 2 (共2页)
C********e
发帖数: 492
1
来自主题: Programming版 - Spark的mllib有bug?
training testing 比例不论怎么分,每个stage的input data都是一样多,速度都差不
多(当然计算结果是没错的)。。。只有当我真的把输入数据分好了然后只读入
training data,速度才会快起来。。
这个太bug了吧。。。。
x***4
发帖数: 1815
2
来自主题: Programming版 - Spark的mllib有bug?
什么意思?发code看看?
x***4
发帖数: 1815
3
来自主题: Programming版 - Spark的mllib有bug?
randomSplit 是lazy的,会马上返回。真正的sample的操作会在你call rdd action的
时候才会执行。

))
C********e
发帖数: 492
4
来自主题: Programming版 - Spark的mllib有bug?
spark能不能设定让这个立刻执行?
l******u
发帖数: 1
5
来自主题: Programming版 - Spark的mllib有bug?
好像应该不行把,这是由scala语法决定的,lazy的变量只有在需要它的时候才会被调
用执行
x***4
发帖数: 1815
6
来自主题: Programming版 - Spark的mllib有bug?
就是故意设计成这样的。
C********e
发帖数: 492
7
来自主题: Programming版 - Spark的mllib有bug?
那在这种情况下,这种设计岂不是让速度慢了不少。。。
n*******0
发帖数: 2002
8
来自主题: Programming版 - Spark的mllib有bug?
听说可以避免不必要的计算,应该是会让速度加快的233.
d****n
发帖数: 12461
9
来自主题: Programming版 - Spark的mllib有bug?
只有交互环境才会觉得慢吧。lazy的好处是把执行和优化分来了,当然有人也可能觉得
后台优化是个缺点。
S***s
发帖数: 104
10
来自主题: Programming版 - Spark的mllib有bug?
You used seed for randomSplit, so it's no longer random and it's testable

))
C********e
发帖数: 492
11
来自主题: Programming版 - Spark的mllib有bug?
什么意思呢?能否具体说说?
n*****3
发帖数: 1584
12
来自主题: Programming版 - 越来越觉得spark是niche
不太同意这个。
我们组正在搭这个system。 流计算 用 sparkstream。 mllib for 机器学习。
M********0
发帖数: 1230
13
来自主题: Programming版 - h2o好像突然火了
没关系
h2o是并行ML库 包括经典ML算法和DL算法 做的比spark上的MLlib要好 用的人就很多
h2o支持tf和caffe 但好像只是gpu优化
z****e
发帖数: 54598
14
来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Hadoop,Big Data,Spark
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks,不过也有
不少国人加入了,
都是未来的希望啊。
http://hadoop.apache.org/who.html
# Spark
Spark今年大... 阅读全帖
o**********e
发帖数: 18403
15
来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)
【 以下文字转载自 JobHunting 讨论区 】
发信人: dongfeiwww (在路上), 信区: JobHunting
标 题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料,我就尽力按我的积累补充,are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature
属于安全,稳定可靠性一方面也是比较稳定了,但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖
z*******3
发帖数: 13709
16
你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
但是最后结果正确,但是工作中是不能这样搞的
因为r比python还要慢非常多,python已经很慢了
可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
我觉得你投入20年,可能能有点小成
还有就是,python如果不想搞的话,可以看看scala
scala比java难,难很多,但是至少这样可以上jvm和spark这些
然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事
ml和stat虽然有重叠,但是理论和应用,毕竟还是两回事
j*****n
发帖数: 1545
17
而且现在大部分公司里面真正 production 用的 lib 都是 java/scala/C++ 实现的.
MLlib 是个很好的例子. 只会R就只能做 PPT, 做个 story, 做不出产品的. 当然有些
岗位做 PPT, make up 一个 story 也就够了。
z*******3
发帖数: 13709
18
你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
但是最后结果正确,但是工作中是不能这样搞的
因为r比python还要慢非常多,python已经很慢了
可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
我觉得你投入20年,可能能有点小成
还有就是,python如果不想搞的话,可以看看scala
scala比java难,难很多,但是至少这样可以上jvm和spark这些
然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事
ml和stat虽然有重叠,但是理论和应用,毕竟还是两回事
j*****n
发帖数: 1545
19
而且现在大部分公司里面真正 production 用的 lib 都是 java/scala/C++ 实现的.
MLlib 是个很好的例子. 只会R就只能做 PPT, 做个 story, 做不出产品的. 当然有些
岗位做 PPT, make up 一个 story 也就够了。
c****t
发帖数: 19049
20
这贴怎么又爬上来了。这话题是赵老师的最爱,jvm打败c++, blahblah。归根结底这是
gpu派和cluster派的斗争。cluster派借着高大上公司们以及memory便宜推行hadoop,
spark,招揽一批ds。mllib主要是用python吧。cluster派最大的优势是不用自己重造
算法。cluster派最大的劣势是就算spark再翻个跟头,commodity server们的处理速度
也就那么回事儿。gpu派最大的困难是绝大多数现有算法,包括ml算法并没有给gpu那种
处理结构优化,那种结构本来就是设计来处理video和animation的。有资源的话发展出
什么gpu-spark也不是难事。谁战胜誰还是看资源再分配。
找工作嘛,尽快学好一个就行了。别觉着有啥便宜没占着会后悔,那就不会犹豫更不会
后悔
m***r
发帖数: 359
21
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-14
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-14/short.html
1) 【Apache Spark 1.3发布】 by @网路冷眼
关键词:分析, 计算框架, Kafka, Spark, 流计算
【Apache Spark 1.3发布】 [1] Spark 1.3引入万众期待的DataFrame API,让大数据挖
掘简单而快速。重大改进有:新的DataFrame API;Spark SQL从Alpha毕业;内置支持
Spark包;Streaming支持底层Kafka;MLlib引入新的算法。 @hashjoin @BigData大数据
@好东西传送门 @伯乐头条 @52nlp @DataMooc
[1] https://databricks.com/blog/2015/03/13/announcing-spark-1-... 阅读全帖
m***r
发帖数: 359
22
来自主题: DataSciences版 - 机器学习周报 2015-03-15
http://ml.memect.com/weekly/2015-03-15/
## 2015-03-15 星期日,完整版 28 条
NICAR15主题报告Hands-on with machine learning @爱可可-爱生活
《七周七并发模型》 @睡眼惺忪的小叶先森
两个R语言教程 @2gua
经典老文Fast unfolding of communities in large networks @爱可可-爱生活
用PageRank计算世界杯参赛球队排行榜 @爱可可-爱生活
## 2015-03-14 星期六,完整版 28 条
LINE模型大规模网络降维公布论文以及源代码 @chuckpku
概率图模型基础总结 @数盟社区
Sum-Product Networks @爱可可-爱生活
IJCV 综述:图模型中的离散能量最小化 @赵家平USC
Stanford基于神经网络的自然语言依存关系解析器 @爱可可-爱生活
## 2015-03-13 星期五,完整版 32 条
多智能自然语言处理 @刘知远THU
计算机辅助翻译推荐作者 @青鸟leo翻译之声
FaceNet人脸识别 @爱可可... 阅读全帖
s****h
发帖数: 3979
23
来自主题: DataSciences版 - spark 问题
data frame API 1.3 才有。
弄进一个dense vector很直接:
import org.apache.spark.mllib.linalg.{Vector, Vectors}
val path = "~/test60m.txt"
val minPartitions = 4

val parsed = sc.textFile(path, minPartitions)
.map(_.trim)
.filter(line => !(line.isEmpty || line.startsWith("#")))
val a = parsed.map({ line =>
val fields = line.split(" ")
(fields(0).toInt, fields(1))})
val dataLoad = a.map(x => (x._1, Vectors.dense(x._2.split(',').map(_.
toDouble))))
可是sparse vector就不会了。
不知道怎么结合下面的例子
// Create a dense vector (... 阅读全帖
H****E
发帖数: 254
24
来自主题: DataSciences版 - spark 问题
https://databricks.com/blog/2014/07/16/new-features-in-mllib-in-spark-1-0.
html
"So storage-wise, the sparse format is better than the dense format when
more than 1/3 of the elements are zero. However, assuming that the data can
be fit into memory in both formats, we usually need sparser data to observe
a speedup, because the sparse format is not as efficient as the dense format
in computation. Our experience suggests a sparsity of around 10%, while the
exact switching point for the running time... 阅读全帖
M*P
发帖数: 6456
25
来自主题: DataSciences版 - 哪里有基于sparks的算法的书?
貌似很多方法比如SVM,Kmeans都在MLlib里实现了,但是具体是什么算法,连个
reference都没给。
有没有什么书综述这些算法的?

发帖数: 1
26
来自主题: DataSciences版 - 求职招聘高薪IT,你想不成功都难
【IT求职成功分享视频】
https://youtube.com/playlist?list=PLRMhRP6Z9GjQMa3LmGMOgoYfuzErGOifZ
【微软Dynamic CRM 项目求职和证书】
OTO(线下线上授课)
最权威的CRM专家
最火爆炙热的职场和市场需求
最精品高效的IT技术
最有效的IT求职培训
知识传递,面试,求职一包到底,100%获取微软CRM 认证证书
云,移动和大数据三大技术趋势以及社交化的发展正在构建新型的IT生态环境,也进一
步将个人与企业紧密地联系起来,使得企业运营和决策能够及时反应来自市场的需求,
让客户满意度最大化,也让企业本身经济效益最大化。这一切都与CRM的广泛成熟运用
密不可分。何为CRM? CRM是Customer Relationship Management的缩写,也就是客户
关系管理。这是一套集销售管理、市场管理、服务管理、敏捷市场反应以及客户商机数
据分析挖掘的平台和技术。
微软的基于云技术的Dynamic CRM平台是目前CRM解
决方案的领导者,被广泛地应用于各个行业如银行、金融、证券、制造业、政府、医疗
... 阅读全帖

发帖数: 1
27
不知这样的大数据培训怎样?我想求职Big Data Engineer 或Big data Architect. 先
谢了!
视频介绍:https://www.youtube.com/watch?v=_H84B0z-pj0
和内容
1. Hadoop (HDFS, MapReduce, Hive, Pig, Kafka, Yarn etc)
2. Big Data and it's BI (ETL, Sqoop, OLTP/OLAP, Cube, Power Pivot, Tableau,
Power BI)
3. Machine Learning and Spark (Spark SQL, Stream, MLlib)
x*********3
发帖数: 63
28
来自主题: DataSciences版 - 【内部推荐工作】
Qualifications
- Ph.D. in Data Mining, Machine Learning,
Statistics, Econometrics, Industry Engineering or
related fields; or M.S. in related fields
;with 2+ years experience of applying data
mining techniques to real business problems
Strong working knowledge of data mining and
machine learning techniques. Experience working on
statistical/machine learning package such as
Scikit-Learn, MLlib, Mahout
- Coding experience in python/SQL/R/Java/C#, experience
with Hadoop and Spark is a plus
- Creati... 阅读全帖
首页 上页 1 2 (共2页)