第2页 - 关于spark的讨论汇总 - 话题女王

f********y
发帖数: 156

换工作中，一家基本就还是做我原来类似的，用C++做server后端; 另外一家可能进
Spark组，要重学Scala。学新语言倒不怕，夏天业余时间学了Swift，挺有意思的。
现在主要犹豫的是，Open source发展很快，今天Spark非常热，不知道过几年会咋样？
另外看起来DataBricks可能一直是这个圈子的leader, 在别的公司做Spark会不会变成
打酱油？
两家package都差不多，都是220k左右。求版上大侠们指点。（回头想俺这人生，走了
好多弯路，好多个关节点都没有高人指个路...）

R*****n
发帖数: 355

来自主题: JobHunting版 - 【讲座信息】哪门语言最适合SPARK大数据 (转载)

【以下文字转载自 DataSciences 讨论区】
发信人: RyanXin (RyanXin), 信区: DataSciences
标题: 【讲座信息】哪门语言最适合SPARK大数据
发信站: BBS 未名空间站 (Sun Apr 24 23:11:13 2016, 美东)
Please register for Java/Scala/Python, which one works best for Big Data/
Spark? on Apr 29, 2016 8:00 PM CDT at:
https://attendee.gotowebinar.com/register/6375011672956241924
People discuss on most used language in Big Data world. Which one is the
best, Java, Scala or Python?
This is a free pre-session for course "Spark Hadoop Core".
原帖
http://www.mitbbs... 阅读全帖

s*******d
发帖数: 17566

来自主题: LosAngeles版 - Golfer's swing sparks 25-acre California blaze (转载)

【以下文字转载自 Joke 讨论区】
发信人: splitmind (狗爹猫爸), 信区: Joke
标题: Golfer's swing sparks 25-acre California blaze
发信站: BBS 未名空间站 (Wed Sep 1 00:26:33 2010, 美东)
Over the weekend, a golfer's routine swing in the rough at the Shady Canyon
Golf Course in Irvine, Calif., struck a rock. the impact caused a spark, and
the spark set off a blaze that eventually covered 25 acres

x****d
发帖数: 1766

来自主题: MJ版 - 请问换spark plug 需要什么工具？ (转载)

【以下文字转载自 Auto_Fans 俱乐部】
发信人: CNES (CN), 信区: Auto_Fans
标题: 请问换spark plug 需要什么工具？
发信站: BBS 未名空间站 (Fri Sep 27 12:43:50 2013, 美东)
车子在路上熄火了，好不容易弄到停车场
请问换spark plug 还有spark plug wire 都需要什么工具
05年的chevy impala。多谢了

l****j
发帖数: 81

来自主题: Sound_of_Music版 - Billboard Hot100之Jordin Sparks - Battlefield

Jordin Sparks - Battlefield
http://www.youtube.com/watch?v=WusW7JfPCis
Jordin Sparks档案
《美国偶像》第6季冠军
生日:1989年12月22日
姓名：乔丁-斯帕克斯(Jordin Sparks)
昵称：乔乔
身高：1米83
出生时间：1989年12月22日
出生地点：美国亚利桑那州菲尼克斯
年龄：17
籍贯：亚利桑那州，Glendale

g*****g
发帖数: 34805

来自主题: Programming版 - 有因为Spark而学习Scala的吗？

https://spark.apache.org/docs/0.9.1/java-programming-guide.html
The Spark Java API exposes all the Spark features available in the Scala
version to Java.

g****v
发帖数: 971

来自主题: Programming版 - spark download page里面的CDH， HDP，MapR

在spark的download page：
http://spark.apache.org/downloads.html
看到了CDH， HDP，MapR。
看到了有2类的pre-built packages,想知道为什么CHD和HDP放在一类里，而MapR放在另
外一类里。只是因为license么?
还有另外个问题是“For Hadoop 2 (HDP2, CDH5):”，括号里面的HDP2,CDH5是指spark
兼容这两个hadoop么？
问题比较幼稚，大牛不要见笑。

j****y
发帖数: 684

来自主题: Programming版 - 试了下spark，不过如此啊

大牛说说spark的市场还能好多少年？现在是刚开始吧。
而且公司hadoop也不都迁移到spark吧，那以前搞hadoop的人都重新学spark？

c****e
发帖数: 1453

来自主题: Programming版 - 试了下spark，不过如此啊

simple IO显不出来。HIVE用了0.13？ HIVE实现stinger initiative以后，本来就快了
差不多50倍。Cloudera当时想放弃HIVE, 专心推Imapla现在也被迫回头了。
Hortonworks给Windows提供HDInsight有点结盟的意思，微软贡献了SQL query
optimization到HIVE,还有column file compression format. 这些东西都加上去，和
Spark差别没那么大。一般的逻辑处理，不是极端的算法，5倍到10倍撑死了。
Spark除了RDD, 说到底是继承了Dryad的paper, 用operator做处理比纯粹的MR效率高很
多，再加上中间i/o不要都写到硬盘上，速度一下子上来了。HIVE stinger也是搬这一
套，普通的商业逻辑处理差别只会越来越小。
迭代的算法Spark优势会比较大，但是ML-Lib东西还比较少。没有用过，有用过的出来
说说perf吗？比如我跑个vowpal-wabbit会快多少倍？

z****e
发帖数: 54598

来自主题: Programming版 - 试了下spark，不过如此啊

减少io操作
网络io速度尤其慢，wdong上面说的优化手段其实就是减少网络io
spark减少对硬盘的io操作，自然就快了
我知道你会问，为啥不增加l1l2 cache，那不是更快？
well，比起那种cache，内存增加是更有可能实现的目标不是？
虽然spark的东西没啥特别的，理论上很容易
但是这个东西是一个方向不是？有人做了并开源，总比自己去折腾强
我们懒汉就喜欢直接down轮子用
这种开源轮子一旦出现在市场上，效率做到一定程度
就预示着这个市场已经无利可图了，是时候转战下一个领域了
spark推开了一扇门，也同时关上了很多窗

f****3
发帖数: 77

来自主题: Programming版 - 试了下spark，不过如此啊

想用JDBC之前可用shark，1.1之后spark sql应该也支持了。
好奇大牛的BI系统在换成了spark之后，有多少的perf提升，另外，spark查询的准确性
好想还是有些问题

interactive

z****e
发帖数: 54598

来自主题: Programming版 - Spark会干掉Storm吗？

http://stackoverflow.com/questions/24119897/apache-spark-vs-apa
这两个其实并不冲突，而且有些重点不太一样，spark压根没把streaming太当回事
主流还是在mllib那些东西上，统一接口是所有人的喜好
j2ee什么都在做类似的事情，做个类似的比喻
spark vs storm
就像
vert.x vs akka/node.js
jboss vs mybatis
只能说竞争无处不在，任何一个领域都有3个以上的东西在竞争
优胜劣汰很正常，习惯就好

z****e
发帖数: 54598

来自主题: Programming版 - Spark会干掉Storm吗？

可能相对容易实现一点
sql和r那就麻烦点
sparkr那个目前只是做到让r可以call spark
反过来，让spark调用r的pkg就不太行
mllib也还比较简单，目前还只是text anaylsis阶段
还没有实现ml，统一接口是好事，如果不想折腾
那就直接上spark就好了
所以机会很多，一块新大陆，处女地

N*****m
发帖数: 42603

来自主题: Programming版 - Spark PK Akka 完胜呀

这还需要咋具体？就是老赵说的，spark built on akka
scala写distributed系统，基本上必用akka，比如spray,play啥的，spark这样的也肯
定用
而且spark跟akka不是一个范畴，你这是苹果比橘子

z*******r
发帖数: 12

来自主题: Programming版 - Spark入门，想用Spark写个小项目

我对Spark很感兴趣，想自己写一个小项目来入门。但是一直没有头绪，不晓得写什么
好，各位能否给点儿建议？
很多it企业在Spark/Hadoop上面跑数据挖掘算法，所以我想问下它们想解决什么问题？
thx
希望了解这些之后能够对自己有所启发。

w***g
发帖数: 5958

来自主题: Programming版 - 如何提高Spark在Yarn上的内存使用率

【以下文字转载自 DataSciences 讨论区】
发信人: wdong (cybra), 信区: DataSciences
标题: 如何提高Spark在Yarn上的内存使用率
发信站: BBS 未名空间站 (Fri Jan 9 12:49:36 2015, 美东)
这篇博文分析了spark-env.sh中配置的可用内存如何最终出现在Yarn上，以及如何最终
决定可用cache的大小。
http://www.wdong.org/wordpress/blog/2015/01/08/spark-on-yarn-wh

s*********s
发帖数: 35

来自主题: Programming版 - Spark 和 Dynamodb 之间如何连接

我们是用kinesis接受数据，再由spark streaming做一些数据处理，然后请教大牛们两
个问题，
1）从spark streaming 如何直接存到 dynamo （Cassandra就有一个很好的connector
，datastax开源的，可惜头一定要production用dynamo）
2）如何从dynamo 读数据到 spark 做 batch 处理
谢谢

f********x
发帖数: 99

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

The world beyond batch: Streaming 101: A high-level tour of modern data-
processing concept
http://radar.oreilly.com/2015/08/the-world-beyond-batch-streami
by Tyler Akidau August 5, 2015
Editor’s note: This is the first post in a two-part series about the
evolution of data processing, with a focus on streaming systems, unbounded
data sets, and the future of big data.
Streaming data processing is a big deal in big data these days, and for good
reasons. Amongst them:
Businesses crave ever more tim... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - spark就是因为吃饱了要做rdd成immutable导致了无法实现真正意义上的stream processing吧？

我感觉是rdd这种数据结构限制了他们的发挥
dstream最终还是捆死在rdd上，也就是dstream是rdd的一种
而rdd比较适合dataset，并不十分适合datastream
而spark的基石就是rdd，算法是ml那些，但是数据结构基本上都是rdd
而rdd是为dataset也就是batch处理而设计出来的
为了迁就dataset，硬把datastream的数据结构搞成rdd
这看来不是一个什么很好的选择
当然对于大多数应用来说，micro batch够用
但是总感觉怪怪的，any way，如果flink改掉这个的话
能够结合spark和storm的优点的话，我觉得蛮好
值得一试，比起自己去折腾storm+spark要强
这两个光弄其中一个就已经够呛了

J****R
发帖数: 373

来自主题: Programming版 - 怎样schedule spark application

我也想问这个问题来着。spark看了一些，但还没有理清头绪。
比如说我backend 是java，要是用mysql的话，直接jdbc driver连数据库，发个sql
query， driver 会返回个resultset。
那spark呢？难道是spark把数据写进磁盘，java看到文件了再去读么？

z*******3
发帖数: 13709

来自主题: Programming版 - 怎样schedule spark application

ft，spark的driver program意思是main program
就是你写的那个东西，driver其实是spark context，跟ejb context一样
你对这个eco很不熟悉啊
Spark applications run as independent sets of processes on a cluster,
coordinated by the SparkContext object in your main program (called the
driver program).

f********r
发帖数: 304

来自主题: Programming版 - 怎样schedule spark application

We use Netflix/Genie (credit to Netflix) to manage all our spark jobs. The
Genie node will be the driver node. All the spark jobs are running in yarn-
client mode. Genie will control the which physical cluster the job will be
executed. Genie has a set of comprehensive REST API to let you define
abstract cluster (which is mapped to a physical cluster) and submit jobs,
etc. All you need is your spark job jars or python files, everything will be
as easy as making a HTTP request.

c******n
发帖数: 4965

来自主题: Programming版 - 越来越觉得spark是niche

"很小范围"????? u seem to be equating spark to mllib on spark.
spark itself is a generic hadoop MR replacement, mllib is simply a "demo"
application on top of this platform

z****e
发帖数: 54598

来自主题: Programming版 - scala/spark现在情况怎样？

vert.x的东西太底层
如果要做到spark这个高度
需要大量的代码堆砌
不划算，如果不是spark的core developer
这个solution显然不对
vert.x倒是可以直接替代akka which被spark和flink都使用的东西

f******2
发帖数: 2455

来自主题: Programming版 - Apache Beam bs Apache spark

看了一下incubation的goal description，感觉google还是就想开源个壳子就把客户赢
过来，估计不会成功。
首先，在这里把spark批评一把：https://cloud.google.com/dataflow/blog/dataflow
-beam-and-spark-comparison
然后，在这里想把spark一统到自己的programming model下来：https://wiki.apache.
org/incubator/BeamProposal
感觉完全不顾databrick的感受。
而且dataflow的server side根本没有开源计划。这就好像azure说，我开源了azure客
户段
，而且是apache项目，你们不要用aws啦。
这么搞在云计算上没法翻盘。

b****u
发帖数: 1130

来自主题: Programming版 - 单机学习spark/hadoop的方案？

这就是为什么我让楼主放一个简单的Spark项目到Github上，其实有个基本入门就可以
了。我们公司刚招了一个来接管我Spark的活，没用过DATAFRAME，没用过ML包，也不影
响人家说他会用Spark。有个好的工作态度，能够交流学习就可以了。也就是用用别人
的轮子，没什么太难的活。

b**********5
发帖数: 7881

来自主题: Programming版 - 谁有个save protocolbuf class from spark streaming to cassan (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: beefcurtain5 (beefcurtain5), 信区: JobHunting
标题: 谁有个save protocolbuf class from spark streaming to cassandra的example？
发信站: BBS 未名空间站 (Tue Aug 16 04:28:36 2016, 美东)
谁有个save protocolbuf class from spark streaming to cassandra的example？要
java的，不要scala的。我就是store 一个protocol buf blob to cassandra from
spark streaming。我在用datastax driver。
找了半天在网上，竟然没一个concrete example

c**********a
发帖数: 659

来自主题: Programming版 - 如何run spark scala 代码，不用jar 的情况下？

如何run spark scala 代码，不用jar 的情况下？
https://asimjalis.tumblr.com/post/112174265249/how-to-run-scala-script-on-
spark
这个链接里的那个方法还行。但是就是每次run的时候都log in spark-shell 有什么方
法不login ，还能run 程序？

d*****n
发帖数: 754

来自主题: Programming版 - 如何run spark scala 代码，不用jar 的情况下？

用齐柏林
[在 chandlerinla (And I just want a million dollars!) 的大作中提到：]
:如何run spark scala 代码，不用jar 的情况下？
:https://asimjalis.tumblr.com/post/112174265249/how-to-run-scala-script-on-
:spark
:这个链接里的那个方法还行。但是就是每次run的时候都log in spark-shell 有什么
方法不login ，还能run 程序？

c**********a
发帖数: 659

来自主题: Programming版 - 如何run spark scala 代码，不用jar 的情况下？

我是说在linux 上用命令行运行 spark, scala code, 不是 test. 是formal 的结果。
大家说的ide, 也许也行。但是在linux 用命令行不能run spark, scala code吗？不
login spark-shell.
多谢！

w**z
发帖数: 8232

来自主题: Programming版 - 一两个million的时间序列在spark上怎么分析

spark 主要用来做 map reduce 的。

：目前最大的问题是spark dataframe没有好的包能用，只能自己手动抄代码写模型关键
：对spark不熟而且时间序列很多复杂的算法都在r上实现的很好，没必要自己造轮子。

w***g
发帖数: 5958

来自主题: Programming版 - 一两个million的时间序列在spark上怎么分析

看着不像数据很大，可能不需要spark

：目前最大的问题是spark dataframe没有好的包能用，只能自己手动抄代码写模型关键
：对spark不熟而且时间序列很多复杂的算法都在r上实现的很好，没必要自己造轮子。

R*****n
发帖数: 355

来自主题: Biology版 - 【讲座信息】哪门语言最适合SPARK大数据 (转载)

d****n
发帖数: 233

来自主题: DataSciences版 - Kafka, Spark Streaming, ElasticSearch for Business Intelli

现在还只是个玩具，因为还不是真正的产品，No optimization or security. Lot of
things are missing. 只是一些功能验证而已。我正在研究如何用Spark streaming
+ MLib做一些real time data streaming and analysis including trend or
sentimental analysis. 对Spark还不熟，希望能得到哪位对Spark streaming有实践经
验的大牛指点。

n*****3
发帖数: 1584

来自主题: DataSciences版 - Kafka, Spark Streaming, ElasticSearch for Business Intelli

我们 group 2015
要把R的prototype
在 spark cluster
上 develop nearly
realtime system
with spark stream。
我们是有专门的front
end guy 做的。你想要
easy quick solution，
恐怕没有。
BTW spark stream
例子 GitHub不多啊，
都是一些 toy case

w***g
发帖数: 5958

来自主题: DataSciences版 - 如何提高Spark在Yarn上的内存使用率

这篇博文分析了spark-env.sh中配置的可用内存如何最终出现在Yarn上，以及如何最终
决定可用cache的大小。一般用Hadoop的也会用Yarn，但是文中对Spark部分的分析对
Mesos也有效。
http://www.wdong.org/wordpress/blog/2015/01/08/spark-on-yarn-wh

s****h
发帖数: 3979

来自主题: DataSciences版 - spark 问题

新手请教一个scala+spark问题:
数据格式: userid itemid1,itemid2,itemid3,...
sample:
5 7,13,20,27
12 7,10,27,33
需要做的是,每两个userid的item vector算cosine, 每个user, sort其他user by
cosine value.
其实就是一个KNN.
我想得是
a. 一行行读进来,每行一个sparse vector
or
b. 一起读进一个sparse matrix
两种方式都不会.
多谢多谢。
scala+spark经验只限于根据spark summit上的alswr code照猫画虎，处理了一下自己
的数据。

n*****3
发帖数: 1584

来自主题: DataSciences版 - spark 问题

做过一个小project with spark，没太多经验。。
你要想好 first 你的data manipulation steps before really starts，
spark tokenlize them differently
BTW spark 最近搞个 data frame API ，你可以试试， should be better

w**2
发帖数: 147

来自主题: DataSciences版 - 诚心请教Spark EMR配置

This post is by far the closest to what I want,
http://www.chinabtp.com/spark-not-able-to-run-in-yarn-cluster-m
I am not sue what configuration file/folder it refers to in the slave node.
There are conf for yarn and conf for spark (which has "spark-defaults.conf")

b**********l
发帖数: 116

来自主题: DataSciences版 - 小白弱问，并行和分布计算区别，gpu和spark区别？

现在似乎spark很火，比hadoop流行了。。。
然后又总看一些seminar是nvidia公司支持的讲gpu啊cuda啊什么的。。。
请问spark/hadoop和gpu啊mpi啊是什么关系啊？貌似都很流行所以不是一回事吧？没有
谁替代谁的关系吧。。。
那一般说的high performance computing指的是gpu计算？
比如我要算个大的距离矩阵，想要算得快点，是用spark啊还是gpu啊（虽然我都不会）
？那这个叫并行计算还是分布式计算啊？
多谢。。。求科普。。。

n******7
发帖数: 12463

来自主题: DataSciences版 - 单机学习spark/hadoop的方案？ (转载)

【以下文字转载自 Programming 讨论区】
发信人: nowhere7 (折腾), 信区: Programming
标题: 单机学习spark/hadoop的方案？
发信站: BBS 未名空间站 (Fri Apr 29 15:07:37 2016, 美东)
千老找工作，被问到了scala/spark/NoSQL这方面
感觉有必要练习一下
有个16核64G内存的机器
为了学习spark/hadoop之类的
我在琢磨单机多开虚拟机来模拟cluster
有这么玩的吗？
最好有什么工具专门为这个目的设计的
vagrant似乎不错？

c***x
发帖数: 1922

来自主题: Military版 - CNN: Orlando shooting sparks gun control, language debates

CNN是什么鸟。它说spark就spark

x****a
发帖数: 1041

来自主题: Automobile版 - 车子在路上突然熄火可能是spark plug的问题么?

不象spark plug的问题。一般车都是4个或6个spark plug,就算坏了一个车也不会熄火
。全部同时快掉的概率不大。

o****e
发帖数: 536

来自主题: Automobile版 - Denso Iridium Spark Plug 真能坚持120K mile ？？

最近发现发动机的噪音有点大，首先怀疑是刚加的Costco 87号的汽油质量不好。
现在又再想是否要换 Spark Plug（已经56Kmile），但手册说120K才建议换。
现在换 Spark Plug能使发动机燃烧更好？

j*****8
发帖数: 258

来自主题: Automobile版 - 换Spark Plugs麻烦吗！自己换可以吗！

换Spark Plugs麻烦吗！自己换可以吗！
我的SUV突然耗油增加，想自己试试换Spark Plugs，V6 Honda Pilot.
哪位高手指点一下！
谢谢！

m***i
发帖数: 133

来自主题: Automobile版 - spark plug 写不下来，请教

周末想换掉spark plug,3个很顺利些来换成新的了。可是就是有一个下不下来，把我使
用的Extension Bar都扭的twist了，听人说可以用神魔松动螺丝的试剂，请问是神魔？
可以直接碰到spark plug里吗？不会造成打不着火把？谢谢

m***i
发帖数: 133

来自主题: Automobile版 - spark plug 写不下来，请教

我也不知道，刚开始没有板动，就加了一个套管在wrench的把上，就觉得动了，以为是
spark松动了，就有转了一圈，然后才发现是Extension Bar都扭的twist，大概有90度
，可能是Extension Bar的质量不好，总之是spark没有任何的松动。

p**********n
发帖数: 329

来自主题: Automobile版 - 怎么找spark plug

vw 2003 jetta 2.0L 第一次自己换spark plug，不知道在什么地方，网上也没找到一
样的。请问有方法判断哪个是spark plug吗？谢谢

D**C
发帖数: 331

来自主题: Automobile版 - 怎么找spark plug

If you plan to keep the car for a while and want to do some work yourself,
it is best to a service manual for it.
http://www.bentleypublishers.com/volkswagen/repair-information/
If I remember this correctly, you remove engine cover first, pull out the
wire (should be 4, 2 on each side), use a long extension to loose the spark
plug, if you don't have special spark plug socket, you need some long plier
to get the old plugs out. Install new one in reverse order. You might have
to remove a few othe... 阅读全帖

K*********n
发帖数: 2852

来自主题: Automobile版 - Chevrolet Spark 这款车怎么样？

fiesta这个车不少年了，比较经得住考验，安全性在小车里面算好的。里面内饰比较炫
。再说它总比focus便宜，你都考虑focus了……spark看着做工太cheap了……
fiesta比spark并不多费油吧，但是能多坐一个人，后备箱空间更大。个人觉得造型也
更运动。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天