topics

全部话题 - 话题: giraph
(共0页)
s*********p
发帖数: 130
1
来自主题: JobHunting版 - 版上有谁了解FB Giraph team?
在找15年的phd intern。。现在进入team fit interview阶段。版上有谁了解
Facebook Giraph team吗?在FB是一个什么样的team? 技术如何?前景怎么样?听说烙
印很多,是真的吗?
j*******t
发帖数: 223
2
来自主题: JobHunting版 - Hama是怎么一回事?
Hama是基于BSP计算框架的(Pregel和对应的开源版本Giraph也是基于BSP的)。BSP框
架在80年代由Leslie Valiant等人提出(2010年图灵奖得主)。与MapReduce相比,BSP
更适用于迭代式计算。
一个典型的基于BSP的程序分为多个iteration,其中每个iteration包含Local
computation,Communication,以及Synchronization这几个阶段(关于细节可以参看
相关网站)。
相较于专门针对Graph计算的Google的Pregel和另一个开源版本Giraph,Hama是一种更
加宽泛的计算框架,它有Grpah API,同时也可以大家写更加宽泛的迭代算法,比如
KMeans,EM,PageRank等。此外,为了进一步提高计算效率,Hama目前正在考虑加入
GPU协作运算。
另一个很接近的框架是Spark,如果数据(RDD)被载入内存(cache),那么Spark在进
行迭代运算时效率也很高。
Hama目前社区还很小,所以显得比较冷清。Mahout社区要大很多,而且目前在考虑加入
基于Spark的算法,所以比... 阅读全帖
h******u
发帖数: 155
3
要看什么样的 application?不是什么程序都好fix的。并且,我前面主要在讲用java
实现的
data-processing system,例如hadoop,Giraph,Hyracks之类,不是简单query db的程序
。这些大程序往往需要在5G的memory上面处理500G的data stream,如果你看到所有的
interface都需要object, 这个程序很难去大大的优化。object pooling是一个很ad-
hoc的pattern,并不能fundamentally解决object带来的 overhead。一个很关键的做法
(现在很多系统都在用),就是不让系统里面object的数量随着数据量线形增长,否则
不可能scalable。怎么办,Hyracks用了这种做法:用buffer-based data management
。创建大的buffer,把数据放在buffer里面,而不要create小objects。 类似于region
-based memory management。 只有data processor (比如hash function, so... 阅读全帖
l*n
发帖数: 529
4
感兴趣的人可以看看Spark stack的solution, Spark Streaming
http://spark.incubator.apache.org/talks/strata_spark_streaming.
这个是Scala阵营的,哈哈,JVM脚本语言大乱斗~~
ps. Spark stack的覆盖真全啊,Shark在高速SQL上斗Dremel,Spark Streaming在
stream上斗Storm/Trident,还有个Bagel斗Pregel/Giraph,真是春秋战国的乱世啊。
m*********a
发帖数: 5
5
来自主题: JobHunting版 - 版上有谁了解FB Giraph team?
同关注~
h*********g
发帖数: 51
6
来自主题: JobHunting版 - 版上有谁了解FB Giraph team?
楼主是这个与联系你的吗 还是recruiter帮忙找的? 一个多星期,了无音讯,
recruiter还说他马上去度假了。。
s*********p
发帖数: 130
7
来自主题: JobHunting版 - 版上有谁了解FB Giraph team?
不是 这是我想求的组,不知道怎么样?
同是recruiter 无回信啊。。。一般处理多久啊?team fit interview 都问些什么

楼主是这个与联系你的吗
i**d
发帖数: 357
8
来自主题: JobHunting版 - 版上有谁了解FB Giraph team?
Manager是老印,其他的不多说了。
s*********p
发帖数: 130
9
来自主题: JobHunting版 - 版上有谁了解FB Giraph team?
能展开说说吗?这也是我最担心的一块。组里是不烙印也多,中国人受到排挤啊?这样
的话return offer 会不会很难拿

Manager是老印,其他的不多说了。
s*********p
发帖数: 130
10
来自主题: JobHunting版 - 版上有谁了解FB Giraph team?
顺便问一下,ads 和 feeds 组怎么样?是否容易拿return offer? 如果版上有这两个
组的大哥,能否求个内推啊?
b**********5
发帖数: 7881
11
来自主题: JobHunting版 - 问个L家的onsite题
https://code.facebook.com/posts/274771932683700/large-scale-graph-
partitioning-with-apache-giraph/
自己慢慢看吧
c******n
发帖数: 4965
12
来自主题: JobHunting版 - Data bricks怎样?
他现在牛逼哄哄, 主要是还没有出来竞争的对手, 有很多号称in-memory execution
framework, 但都是niche application use case, 比如giraph, tez ,presto, 没有
直接替代hadoop MR 这种basic building block 的。
再过个1,2年,有对手了, 大家用得多了,对它的源码看明白,就知道它有多少是
hype, 剩下的部分,也会有人rewrite from scratch

何?

发帖数: 1
13
https://www.smartrecruiters.com/Ancestry/88345635-senior-data-s
Company Description
Ancestry is the world's largest online resource for family history. We have
helped pioneer the market for online family history research, taking a
pursuit that was expensive and time-consuming and making it easy, affordable
and accessible to anyone with an interest in their family history. The
foundation of our service is an extensive collection of billions of
historical records that we have digitized, indexed an... 阅读全帖
c*********t
发帖数: 30088
14
来自主题: LeisureTime版 - wh学术你来看下这个
wh你看这个mm推荐的14,竹纤维的东西,是不是就是学术笑话咱俩没文化,不知道竹的
东西也可以贴身?
发信人: Giraph (波上寒烟翠), 信区: Fashion
标 题: 贡献我的回国购物清单
发信站: BBS 未名空间站 (Fri Nov 5 03:59:32 2010, 美东)
看到有MM问,突然想起来我有个清单,就贡献出来了。特意不厚道的单独开贴,不知道
能不能换到个包子。
1,好的茶叶,绿茶,推荐午子绿茶,牌子叫午子,茶叶俗称陕青,名声不大,所以没
有假货,也不贵。但是质量很好,包装也很精美,实在是送礼自用的好东西。厂家在淘
宝有专卖店,多买可以打折,西安市内还给送货。而且号称是有机的,这个我持怀疑态
度,但是真的很好喝。喜欢清淡的请买“仙毫”,喜欢味重的直接买绿茶。
2,好的木耳香菇等干货
3,质量好的拖鞋,想起一句话,穿上双星鞋,潇洒走世界,你们都懂的
4,衣物整理袋
5,龙仕翔饺子盘,用这个盘子,饺子真的不粘哦
6,月饼模子
7,甜点杯垫
8,花色橡皮,这个可以用来收纳耳环,一只橡皮上轻轻插一对耳环,好找又可爱
9,刮鱼鳞器/带盖鱼鳞刨
10,刮两份的那种工具,... 阅读全帖
c*********t
发帖数: 30088
15
来自主题: Shaanxi版 - 贡献我的回国购物清单 (转载)
【 以下文字转载自 Fashion 讨论区 】
发信人: Giraph (波上寒烟翠), 信区: Fashion
标 题: 贡献我的回国购物清单
发信站: BBS 未名空间站 (Fri Nov 5 03:59:32 2010, 美东)
看到有MM问,突然想起来我有个清单,就贡献出来了。特意不厚道的单独开贴,不知道
能不能换到个包子。
1,好的茶叶,绿茶,推荐午子绿茶,牌子叫午子,茶叶俗称陕青,名声不大,所以没
有假货,也不贵。但是质量很好,包装也很精美,实在是送礼自用的好东西。厂家在淘
宝有专卖店,多买可以打折,西安市内还给送货。而且号称是有机的,这个我持怀疑态
度,但是真的很好喝。喜欢清淡的请买“仙毫”,喜欢味重的直接买绿茶。
2,好的木耳香菇等干货
3,质量好的拖鞋,想起一句话,穿上双星鞋,潇洒走世界,你们都懂的
4,衣物整理袋
5,龙仕翔饺子盘,用这个盘子,饺子真的不粘哦
6,月饼模子
7,甜点杯垫
8,花色橡皮,这个可以用来收纳耳环,一只橡皮上轻轻插一对耳环,好找又可爱
9,刮鱼鳞器/带盖鱼鳞刨
10,刮两份的那种工具,用老式罐头盖子作的那种
11,老外婆针线盒、筐、针插等... 阅读全帖
r*******k
发帖数: 44
16
yarn 的几个比较大的目的包括:
1) support 4k+ nodes
2) support 除mapred 外其他的computation frameworks, like mpi, Giraph, spark,
etc.
对于1来说,目前只对yahoo 一家有意义,他们公司的策略是建一个几万node 的
cluster shared by 所有项目。95%的公司根本没这个规模,其他5% 有相同规模的公司
都采用多个cluster, each for a project 的模式,最大1k node 顶头了。
真正需要2的,不好说有多少,听人propose的多,真正用的人不知道。
因为以上这些原因,他们需要把resource, node, application and job management
分开,提供不同的services。听起来复杂,实际totally make sense.
yarn 这个项目从一开始就是被yahoo 推动,而后有hortonworks 接手。yarn 的方向不
错,但目前,和短期内,只对yahoo 有意义,对多数人来说,可以不用管。我本人觉得
,... 阅读全帖
f********x
发帖数: 99
17
最好利用现有开源项目跑,不要自己从头去实现。比如,
1. Mahout http://mahout.apache.org/
e.g. https://github.com/tdunning/knn/blob/master/src/main/java/org/apache/
mahout/knn/
2. GraphLab (www.graphlab.org)
e.g. http://docs.graphlab.org/clustering.html
3. Other projects (such, Facebook Giraph, Intel Graphbuilder and so on)

find
python
force
j*******g
发帖数: 331
18
来自主题: DataSciences版 - NYC position
感兴趣的站内
Senior Big Data Engineer
As the world's largest B2B cloud company and an industry pioneer in SaaS,
ADP continues to be a global leader in technology for HR and Human Capital
Management. Our investments in technology increase every year to develop
simpler, more elegant solutions to deliver our unique breadth of offerings
to clients.
ADP Innovation Labs are a natural evolution for ADP. We have existing teams
focused on the enhancements and support of today's client offerings, and
through th... 阅读全帖
(共0页)