问个spark的问题 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 问个spark的问题

相关主题
● 问个L家设计题大数据处理的
● zookeeper高手请进
● 要建立一个20个node的cluster 需要zookeeper吗
● Qualtrics是个怎么样的公司？前景如何？
● 阿里招聘PM、SDE
● Databricks 这个公司什么情况？
● 还有公司会在新项目选择mapReduce吗？
● 问个海量数据处理问题
● 问个大数据处理的面试题
● 问个mysql cluster的问题 (转载)

相关话题的讨论汇总
话题: spark话题: 状态话题: 时刻话题: 开关话题: 数据

进入JobHunting版参与讨论

1

(共1页)

w******6 发帖数: 35	1 在公司刚开始工作，要用spark做一些数据处理其中一个问题是，有一堆event，会导致状态来回变，想看某一个时刻的状态是啥比如说，一个开关，一个事件是打开开关，一个事件是关上开关，最后看开关是开是关。有可能有冗余的数据，比如关上关闭的，或者打开已经打开的。像这种情况，怎么用spark在cluster上做计算D啊？我觉得顺序很重要啊，分布怎么能保证顺序呢？或者没关系，最后还是能算到一起？
s**********1 发帖数: 12	2 将数据根据时间排序后 1:00 on 1:11 off 2:00 on 2:11 off 2:20 off 2:40 on 比如要获得2:15时刻的状态，只需看离2:15最近的时刻(2:11)那个状态即可。比如序列on on off off on 的最终状态是on 此法可以得到任意时刻的状态。比如求2:15时刻的状态 # 时间从到大小排序 rdd.filter(lambda (time, event): time <＝ "2:15", reverse = true).sortByKey( ).take(1). 其实可以不用排序，根据时间取最大值就好了
c******4 发帖数: 701	3 是sparkstreaming吗？如果是的话应该有个checkpoint的文件夹，如果中途fail了，看看里面有没有数据，说明已经结束，就重新new好了，如果有数据，就拿出来接着用。如果用zookeeper的话，那个zookeeper也可以管理这些数据的状态

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 问个mysql cluster的问题 (转载)
● 问个算法题
● 问个很蠢的spark streaming问题
● G家，A家，E 家， H家， E家面筋，赞人品喽~
● 基本做完leetcode第二遍了，下一步该干点啥了？
● pre-IPO 公司招聘3
● 分享一些经验及心得
● system desgin 真是太重要
● 一个很好的zookeeper 入门视频
● 300K+的offer都不是做题做出来的

相关话题的讨论汇总
话题: spark话题: 状态话题: 时刻话题: 开关话题: 数据