由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 能不能在hadoop中用open mpi?
相关主题
aws EMR能设置一个mapper吗?是否值得把业务逻辑做到Hbase coprocessor里面?
MapReduce 的思想是怎么发明的?越来越觉得spark是niche
spark is slower than java Mapreduce --scala big bulls pls advise菜鸟请教个hadoop streaming job 的问题 (转载)
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?诡异的异常处理
转行做data warehouse的问个学习大数据的问题问个Hadoop Word Count的简单问题
Flink Sparks Next Wave of Distributed Data Processing如何用hadoop 析取各种数据?
感觉flink出来之后,hadoop就显得不怎么再需要了coltzhao的公司还在用mongo吗?
MPI问题求助。Help!java的内存管理真是气死我了
相关话题的讨论汇总
话题: mpi话题: node话题: mapreduce话题: java话题: open
进入Programming版参与讨论
1 (共1页)
o******1
发帖数: 1046
1
同样是distributed computing,我觉得mpi library比mapreduce要强大和flexible多
了。
开始以为mpi不支持java,所以大家不得不用mapreduce。最近查了一下,open mpi好像
有java interface和compiler (mpijava)。
能不能在hadoop(java)的程序中import进来open mpi的java interface,然后调用里面
的函数,比如MPI_Scatter, MPI_Send, MPI_Recv之类的函数呢?
谢谢!
z****e
发帖数: 54598
2
当然可以
我记得yarn就有hpc的接口
但是你现在想用openmpi
那两个产品之间的集成需要你自己去处理了
一些傻瓜化的操作就没戏了
o******1
发帖数: 1046
3
多谢回复!
接口集成原先没人做过吗?大家都很喜欢mapreduce这么僵化的风格吗?

【在 z****e 的大作中提到】
: 当然可以
: 我记得yarn就有hpc的接口
: 但是你现在想用openmpi
: 那两个产品之间的集成需要你自己去处理了
: 一些傻瓜化的操作就没戏了

g*****g
发帖数: 34805
4
mpi and mapreduce are for different use cases. MR is for ETL, which
typically has bottleneck on IO. MPI is more for computation intensive tasks.

【在 o******1 的大作中提到】
: 同样是distributed computing,我觉得mpi library比mapreduce要强大和flexible多
: 了。
: 开始以为mpi不支持java,所以大家不得不用mapreduce。最近查了一下,open mpi好像
: 有java interface和compiler (mpijava)。
: 能不能在hadoop(java)的程序中import进来open mpi的java interface,然后调用里面
: 的函数,比如MPI_Scatter, MPI_Send, MPI_Recv之类的函数呢?
: 谢谢!

o******1
发帖数: 1046
5
在与hard drive并行i/o的时候用mapper没问题。但是还有其它的需要啊,比如说node
i想送一段数据给node j,mapreduce唯一的办法就是node i写到hdfs上,然后node j再
去读。如果允许节点间的直接数据传输,是内存进网络再进内存,省去了硬盘的读写,
效率肯定更高啊。

tasks.

【在 g*****g 的大作中提到】
: mpi and mapreduce are for different use cases. MR is for ETL, which
: typically has bottleneck on IO. MPI is more for computation intensive tasks.

g*****g
发帖数: 34805
6
That's because node i writing to node j is not reliable. MR is designed to
work on commodity hardware where a node can fail any time.

node

【在 o******1 的大作中提到】
: 在与hard drive并行i/o的时候用mapper没问题。但是还有其它的需要啊,比如说node
: i想送一段数据给node j,mapreduce唯一的办法就是node i写到hdfs上,然后node j再
: 去读。如果允许节点间的直接数据传输,是内存进网络再进内存,省去了硬盘的读写,
: 效率肯定更高啊。
:
: tasks.

1 (共1页)
进入Programming版参与讨论
相关主题
java的内存管理真是气死我了转行做data warehouse的问个学习大数据的问题
关于big dataFlink Sparks Next Wave of Distributed Data Processing
怎么自学cloud/big data programming感觉flink出来之后,hadoop就显得不怎么再需要了
关于mapreduce一问MPI问题求助。Help!
aws EMR能设置一个mapper吗?是否值得把业务逻辑做到Hbase coprocessor里面?
MapReduce 的思想是怎么发明的?越来越觉得spark是niche
spark is slower than java Mapreduce --scala big bulls pls advise菜鸟请教个hadoop streaming job 的问题 (转载)
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?诡异的异常处理
相关话题的讨论汇总
话题: mpi话题: node话题: mapreduce话题: java话题: open