A*********t 发帖数: 64 | 1 Hama是开源的Pregel,在HDFS上面做graph partition,然后通过message passing再做
local computation,周而往复,知道算出答案为止。抛弃了MapReduce。居然说在某些
方面比较MapReduce有优势。
那么,
比MapReduce有什么优势呢?他们吹嘘比Mahout算k-mean快很多。真的有这么一回事?
为什么那个project总是怪怪的。那个jira基本上是1个人在commit(!)是不是里面有
什么问题?基本上是:
1.我发现问题。
2.我给了patch。
3.我commit。
怎么没有些interactions?
为什么Mahout又那么火呢?不停有人刷mailing list,不停有人commit。
知道内幕的人说说? |
j*******t 发帖数: 223 | 2 Hama是基于BSP计算框架的(Pregel和对应的开源版本Giraph也是基于BSP的)。BSP框
架在80年代由Leslie Valiant等人提出(2010年图灵奖得主)。与MapReduce相比,BSP
更适用于迭代式计算。
一个典型的基于BSP的程序分为多个iteration,其中每个iteration包含Local
computation,Communication,以及Synchronization这几个阶段(关于细节可以参看
相关网站)。
相较于专门针对Graph计算的Google的Pregel和另一个开源版本Giraph,Hama是一种更
加宽泛的计算框架,它有Grpah API,同时也可以大家写更加宽泛的迭代算法,比如
KMeans,EM,PageRank等。此外,为了进一步提高计算效率,Hama目前正在考虑加入
GPU协作运算。
另一个很接近的框架是Spark,如果数据(RDD)被载入内存(cache),那么Spark在进
行迭代运算时效率也很高。
Hama目前社区还很小,所以显得比较冷清。Mahout社区要大很多,而且目前在考虑加入
基于Spark的算法,所以比较热闹。 |
A*********t 发帖数: 64 | 3 谢谢!
BSP
【在 j*******t 的大作中提到】 : Hama是基于BSP计算框架的(Pregel和对应的开源版本Giraph也是基于BSP的)。BSP框 : 架在80年代由Leslie Valiant等人提出(2010年图灵奖得主)。与MapReduce相比,BSP : 更适用于迭代式计算。 : 一个典型的基于BSP的程序分为多个iteration,其中每个iteration包含Local : computation,Communication,以及Synchronization这几个阶段(关于细节可以参看 : 相关网站)。 : 相较于专门针对Graph计算的Google的Pregel和另一个开源版本Giraph,Hama是一种更 : 加宽泛的计算框架,它有Grpah API,同时也可以大家写更加宽泛的迭代算法,比如 : KMeans,EM,PageRank等。此外,为了进一步提高计算效率,Hama目前正在考虑加入 : GPU协作运算。
|