spark里aggregate的问题 - DataSciences版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - spark里aggregate的问题

相关主题
● Big data是下一个大坑吗	● 自己做了一个data science相关的网站
● 大家觉得Weka和Python比较如何?	● Aetna position: Digital Media Analyst - SAS, R, Python, Tableau in New York, New York
● 学习spark是否需要懂scala？	● statistical learning--Stanford open course
● 【讲座信息】哪门语言最适合SPARK大数据	● pig能做iterative的问题吗?
● 讨论，（Big）Data Engineer到底是个什么职位	● data scientist job openings at Workday
● 是不是什么spark,统计模型学完了才能干大型数据分析	● 都用了spark了吗？
● Spark group问题	● Hadoop Spark 学习小结[2014版] (转载)
● 求解一个水塘抽样题 (转载)	● Hadoop Spark 学习小结[2014版] (转载)

相关话题的讨论汇总
话题: aggregate话题: spark话题: element话题: 问题话题: list

进入DataSciences版参与讨论

(共1页)

c*********r
发帖数: 16

刚看spark，被aggregate搞糊涂了。
我看的是这个网页的例子：
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples
他的第一个例子，如果改成
val z = sc.parallelize(List(1,2,3,4,5), 2)
z.aggregate(0)(math.max(_, _), _ + _)
结果是7，这是怎么算的？为什么不是8或者9？
我看到这里的解答，http://blog.csdn.net/u010198460/article/details/38612649
如果z长度为6就平均分，否则呢？
还有两个很弱的问题：
1.这里的_是for each element in the RDD吗？z.aggregate(0)不算一个element吧，
那它对应的是后面两个下划线里的第一个吗？
2.这个z.aggregate(0)(math.max(_,_),_+_)用python写来是怎样的？我对这个_还是不
解。
谢谢各位！

(共1页)

进入DataSciences版参与讨论

相关主题
● Hadoop Spark 学习小结[2014版] (转载)	● 讨论，（Big）Data Engineer到底是个什么职位
● 悬赏 DS USE CASE	● 是不是什么spark,统计模型学完了才能干大型数据分析
● 招数据科学家	● Spark group问题
● spark到底能干什么？	● 求解一个水塘抽样题 (转载)
● Big data是下一个大坑吗	● 自己做了一个data science相关的网站
● 大家觉得Weka和Python比较如何?	● Aetna position: Digital Media Analyst - SAS, R, Python, Tableau in New York, New York
● 学习spark是否需要懂scala？	● statistical learning--Stanford open course
● 【讲座信息】哪门语言最适合SPARK大数据	● pig能做iterative的问题吗?

相关话题的讨论汇总
话题: aggregate话题: spark话题: element话题: 问题话题: list

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天