能不能在hadoop中用open mpi? - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 能不能在hadoop中用open mpi?

相关主题
● aws EMR能设置一个mapper吗？	● 是否值得把业务逻辑做到Hbase coprocessor里面?
● MapReduce 的思想是怎么发明的？	● 越来越觉得spark是niche
● spark is slower than java Mapreduce --scala big bulls pls advise	● 菜鸟请教个hadoop streaming job 的问题 (转载)
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● 诡异的异常处理
● 转行做data warehouse的问个学习大数据的问题	● 问个Hadoop Word Count的简单问题
● Flink Sparks Next Wave of Distributed Data Processing	● 如何用hadoop 析取各种数据？
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● coltzhao的公司还在用mongo吗？
● MPI问题求助。Help!	● java的内存管理真是气死我了

相关话题的讨论汇总
话题: mpi话题: node话题: mapreduce话题: java话题: open

进入Programming版参与讨论

1

(共1页)

o******1 发帖数: 1046	1 同样是distributed computing，我觉得mpi library比mapreduce要强大和flexible多了。开始以为mpi不支持java，所以大家不得不用mapreduce。最近查了一下，open mpi好像有java interface和compiler (mpijava)。能不能在hadoop(java)的程序中import进来open mpi的java interface，然后调用里面的函数，比如MPI_Scatter, MPI_Send, MPI_Recv之类的函数呢？谢谢！
z****e 发帖数: 54598	2 当然可以我记得yarn就有hpc的接口但是你现在想用openmpi 那两个产品之间的集成需要你自己去处理了一些傻瓜化的操作就没戏了
o******1 发帖数: 1046	3 多谢回复！接口集成原先没人做过吗？大家都很喜欢mapreduce这么僵化的风格吗？【在 z****e 的大作中提到】 : 当然可以 : 我记得yarn就有hpc的接口 : 但是你现在想用openmpi : 那两个产品之间的集成需要你自己去处理了 : 一些傻瓜化的操作就没戏了
g*****g 发帖数: 34805	4 mpi and mapreduce are for different use cases. MR is for ETL, which typically has bottleneck on IO. MPI is more for computation intensive tasks. 【在 o******1 的大作中提到】 : 同样是distributed computing，我觉得mpi library比mapreduce要强大和flexible多 : 了。 : 开始以为mpi不支持java，所以大家不得不用mapreduce。最近查了一下，open mpi好像 : 有java interface和compiler (mpijava)。 : 能不能在hadoop(java)的程序中import进来open mpi的java interface，然后调用里面 : 的函数，比如MPI_Scatter, MPI_Send, MPI_Recv之类的函数呢？ : 谢谢！
o******1 发帖数: 1046	5 在与hard drive并行i/o的时候用mapper没问题。但是还有其它的需要啊，比如说node i想送一段数据给node j，mapreduce唯一的办法就是node i写到hdfs上，然后node j再去读。如果允许节点间的直接数据传输，是内存进网络再进内存，省去了硬盘的读写，效率肯定更高啊。 tasks. 【在 g*****g 的大作中提到】 : mpi and mapreduce are for different use cases. MR is for ETL, which : typically has bottleneck on IO. MPI is more for computation intensive tasks.
g*****g 发帖数: 34805	6 That's because node i writing to node j is not reliable. MR is designed to work on commodity hardware where a node can fail any time. node 【在 o******1 的大作中提到】 : 在与hard drive并行i/o的时候用mapper没问题。但是还有其它的需要啊，比如说node : i想送一段数据给node j，mapreduce唯一的办法就是node i写到hdfs上，然后node j再 : 去读。如果允许节点间的直接数据传输，是内存进网络再进内存，省去了硬盘的读写， : 效率肯定更高啊。 : : tasks.

1

(共1页)

进入Programming版参与讨论

相关主题
● java的内存管理真是气死我了	● 转行做data warehouse的问个学习大数据的问题
● 关于big data	● Flink Sparks Next Wave of Distributed Data Processing
● 怎么自学cloud/big data programming	● 感觉flink出来之后，hadoop就显得不怎么再需要了
● 关于mapreduce一问	● MPI问题求助。Help!
● aws EMR能设置一个mapper吗？	● 是否值得把业务逻辑做到Hbase coprocessor里面?
● MapReduce 的思想是怎么发明的？	● 越来越觉得spark是niche
● spark is slower than java Mapreduce --scala big bulls pls advise	● 菜鸟请教个hadoop streaming job 的问题 (转载)
● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？	● 诡异的异常处理

相关话题的讨论汇总
话题: mpi话题: node话题: mapreduce话题: java话题: open

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)