第2页 - 关于mllib的讨论汇总 - 话题女王

C********e
发帖数: 492

training testing 比例不论怎么分，每个stage的input data都是一样多，速度都差不
多（当然计算结果是没错的）。。。只有当我真的把输入数据分好了然后只读入
training data，速度才会快起来。。
这个太bug了吧。。。。

x***4
发帖数: 1815

来自主题: Programming版 - Spark的mllib有bug？

什么意思？发code看看？

x***4
发帖数: 1815

来自主题: Programming版 - Spark的mllib有bug？

randomSplit 是lazy的，会马上返回。真正的sample的操作会在你call rdd action的
时候才会执行。

))

C********e
发帖数: 492

来自主题: Programming版 - Spark的mllib有bug？

spark能不能设定让这个立刻执行？

l******u
发帖数: 1

来自主题: Programming版 - Spark的mllib有bug？

好像应该不行把，这是由scala语法决定的，lazy的变量只有在需要它的时候才会被调
用执行

x***4
发帖数: 1815

来自主题: Programming版 - Spark的mllib有bug？

就是故意设计成这样的。

C********e
发帖数: 492

来自主题: Programming版 - Spark的mllib有bug？

那在这种情况下，这种设计岂不是让速度慢了不少。。。

n*******0
发帖数: 2002

来自主题: Programming版 - Spark的mllib有bug？

听说可以避免不必要的计算，应该是会让速度加快的233.

d****n
发帖数: 12461

来自主题: Programming版 - Spark的mllib有bug？

只有交互环境才会觉得慢吧。lazy的好处是把执行和优化分来了，当然有人也可能觉得
后台优化是个缺点。

S***s
发帖数: 104

来自主题: Programming版 - Spark的mllib有bug？

You used seed for randomSplit, so it's no longer random and it's testable

))

C********e
发帖数: 492

来自主题: Programming版 - Spark的mllib有bug？

什么意思呢？能否具体说说？

n*****3
发帖数: 1584

来自主题: Programming版 - 越来越觉得spark是niche

不太同意这个。
我们组正在搭这个system。流计算用 sparkstream。 mllib for 机器学习。

M********0
发帖数: 1230

来自主题: Programming版 - h2o好像突然火了

没关系
h2o是并行ML库包括经典ML算法和DL算法做的比spark上的MLlib要好用的人就很多
h2o支持tf和caffe 但好像只是gpu优化

z****e
发帖数: 54598

来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (在路上), 信区: JobHunting
标题: Hadoop Spark 学习小结[2014版]
关键字: Hadoop,Big Data,Spark
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，
都是未来的希望啊。
http://hadoop.apache.org/who.html
# Spark
Spark今年大... 阅读全帖

o**********e
发帖数: 18403

来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (在路上), 信区: JobHunting
标题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖

z*******3
发帖数: 13709

来自主题: DataSciences版 - 求问编程语言的选择，学stat的往DS努力

你搞research用r，只是能用，虽然很慢，嘎啦嘎啦跑半天
但是最后结果正确，但是工作中是不能这样搞的
因为r比python还要慢非常多，python已经很慢了
可以简单认为，r没有做任何的优化，python有做部分的优化，但是远远不够
对于海量数据，jvm虽然也不快，但是比起r和python，那已经是光速了
学c就意味着你要自己学会各种优化，乖乖，这个难度非常非常大
我觉得你投入20年，可能能有点小成
还有就是，python如果不想搞的话，可以看看scala
scala比java难，难很多，但是至少这样可以上jvm和spark这些
然后你再对比r，看看spark上的mllib少了什么，虽然我觉得这本身就不是一回事
ml和stat虽然有重叠，但是理论和应用，毕竟还是两回事

j*****n
发帖数: 1545

来自主题: DataSciences版 - 求问编程语言的选择，学stat的往DS努力

而且现在大部分公司里面真正 production 用的 lib 都是 java/scala/C++ 实现的.
MLlib 是个很好的例子. 只会R就只能做 PPT, 做个 story, 做不出产品的. 当然有些
岗位做 PPT, make up 一个 story 也就够了。

z*******3
发帖数: 13709

来自主题: DataSciences版 - 求问编程语言的选择，学stat的往DS努力

j*****n
发帖数: 1545

来自主题: DataSciences版 - 求问编程语言的选择，学stat的往DS努力

c****t
发帖数: 19049

来自主题: DataSciences版 - 求问编程语言的选择，学stat的往DS努力

这贴怎么又爬上来了。这话题是赵老师的最爱，jvm打败c++, blahblah。归根结底这是
gpu派和cluster派的斗争。cluster派借着高大上公司们以及memory便宜推行hadoop,
spark，招揽一批ds。mllib主要是用python吧。cluster派最大的优势是不用自己重造
算法。cluster派最大的劣势是就算spark再翻个跟头，commodity server们的处理速度
也就那么回事儿。gpu派最大的困难是绝大多数现有算法，包括ml算法并没有给gpu那种
处理结构优化，那种结构本来就是设计来处理video和animation的。有资源的话发展出
什么gpu-spark也不是难事。谁战胜誰还是看资源再分配。
找工作嘛，尽快学好一个就行了。别觉着有啥便宜没占着会后悔，那就不会犹豫更不会
后悔

m***r
发帖数: 359

来自主题: DataSciences版 - 大数据日报 2015年3月楼

大数据日报 2015-03-14
@好东西传送门出品, 过刊见
http://bd.memect.com
订阅：给 [email protected]
/* */ 发封空信，标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-14/short.html
1) 【Apache Spark 1.3发布】 by @网路冷眼
关键词：分析, 计算框架, Kafka, Spark, 流计算
【Apache Spark 1.3发布】 [1] Spark 1.3引入万众期待的DataFrame API,让大数据挖
掘简单而快速。重大改进有：新的DataFrame API;Spark SQL从Alpha毕业;内置支持
Spark包;Streaming支持底层Kafka;MLlib引入新的算法。 @hashjoin @BigData大数据
@好东西传送门 @伯乐头条 @52nlp @DataMooc
[1] https://databricks.com/blog/2015/03/13/announcing-spark-1-... 阅读全帖

m***r
发帖数: 359

来自主题: DataSciences版 - 机器学习周报 2015-03-15

http://ml.memect.com/weekly/2015-03-15/
## 2015-03-15 星期日，完整版 28 条
NICAR15主题报告Hands-on with machine learning @爱可可-爱生活
《七周七并发模型》 @睡眼惺忪的小叶先森
两个R语言教程 @2gua
经典老文Fast unfolding of communities in large networks @爱可可-爱生活
用PageRank计算世界杯参赛球队排行榜 @爱可可-爱生活
## 2015-03-14 星期六，完整版 28 条
LINE模型大规模网络降维公布论文以及源代码 @chuckpku
概率图模型基础总结 @数盟社区
Sum-Product Networks @爱可可-爱生活
IJCV 综述：图模型中的离散能量最小化 @赵家平USC
Stanford基于神经网络的自然语言依存关系解析器 @爱可可-爱生活
## 2015-03-13 星期五，完整版 32 条
多智能自然语言处理 @刘知远THU
计算机辅助翻译推荐作者 @青鸟leo翻译之声
FaceNet人脸识别 @爱可可... 阅读全帖

s****h
发帖数: 3979

来自主题: DataSciences版 - spark 问题

data frame API 1.3 才有。
弄进一个dense vector很直接：
import org.apache.spark.mllib.linalg.{Vector, Vectors}
val path = "～/test60m.txt"
val minPartitions = 4

val parsed = sc.textFile(path, minPartitions)
.map(_.trim)
.filter(line => !(line.isEmpty || line.startsWith("#")))
val a = parsed.map({ line =>
val fields = line.split(" ")
(fields(0).toInt, fields(1))})
val dataLoad = a.map(x => (x._1, Vectors.dense(x._2.split(',').map(_.
toDouble))))
可是sparse vector就不会了。
不知道怎么结合下面的例子
// Create a dense vector (... 阅读全帖

H****E
发帖数: 254

来自主题: DataSciences版 - spark 问题

https://databricks.com/blog/2014/07/16/new-features-in-mllib-in-spark-1-0.
html
"So storage-wise, the sparse format is better than the dense format when
more than 1/3 of the elements are zero. However, assuming that the data can
be fit into memory in both formats, we usually need sparser data to observe
a speedup, because the sparse format is not as efficient as the dense format
in computation. Our experience suggests a sparsity of around 10%, while the
exact switching point for the running time... 阅读全帖

M*P
发帖数: 6456

来自主题: DataSciences版 - 哪里有基于sparks的算法的书？

貌似很多方法比如SVM，Kmeans都在MLlib里实现了，但是具体是什么算法，连个
reference都没给。
有没有什么书综述这些算法的？

发帖数: 1

来自主题: DataSciences版 - 求职招聘高薪IT,你想不成功都难

【IT求职成功分享视频】
https://youtube.com/playlist?list=PLRMhRP6Z9GjQMa3LmGMOgoYfuzErGOifZ
【微软Dynamic CRM 项目求职和证书】
OTO(线下线上授课)
最权威的CRM专家
最火爆炙热的职场和市场需求
最精品高效的IT技术
最有效的IT求职培训
知识传递，面试，求职一包到底，100%获取微软CRM 认证证书
云，移动和大数据三大技术趋势以及社交化的发展正在构建新型的IT生态环境，也进一
步将个人与企业紧密地联系起来，使得企业运营和决策能够及时反应来自市场的需求，
让客户满意度最大化，也让企业本身经济效益最大化。这一切都与CRM的广泛成熟运用
密不可分。何为CRM？ CRM是Customer Relationship Management的缩写，也就是客户
关系管理。这是一套集销售管理、市场管理、服务管理、敏捷市场反应以及客户商机数
据分析挖掘的平台和技术。 微软的基于云技术的Dynamic CRM平台是目前CRM解
决方案的领导者，被广泛地应用于各个行业如银行、金融、证券、制造业、政府、医疗
... 阅读全帖

发帖数: 1

来自主题: DataSciences版 - 不知这样的大数据培训怎样？我想求职Big data Architect......

不知这样的大数据培训怎样？我想求职Big Data Engineer 或Big data Architect. 先
谢了!
视频介绍：https://www.youtube.com/watch?v=_H84B0z-pj0
和内容
1. Hadoop (HDFS, MapReduce, Hive, Pig, Kafka, Yarn etc)
2. Big Data and it's BI (ETL, Sqoop, OLTP/OLAP, Cube, Power Pivot, Tableau,
Power BI)
3. Machine Learning and Spark (Spark SQL, Stream, MLlib)

x*********3
发帖数: 63

来自主题: DataSciences版 - 【内部推荐工作】

Qualifications
- Ph.D. in Data Mining, Machine Learning,
Statistics, Econometrics, Industry Engineering or
related fields; or M.S. in related fields
;with 2+ years experience of applying data
mining techniques to real business problems
Strong working knowledge of data mining and
machine learning techniques. Experience working on
statistical/machine learning package such as
Scikit-Learn, MLlib, Mahout
- Coding experience in python/SQL/R/Java/C#, experience
with Hadoop and Spark is a plus
- Creati... 阅读全帖

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天