由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - hadoop job 速度提升
相关主题
java的内存管理真是气死我了能不能在hadoop中用open mpi?
关于mapreduce一问转行做data warehouse的问个学习大数据的问题
big data怎么搞定商业报表?Flink Sparks Next Wave of Distributed Data Processing
是我的错觉么?我觉得google的三架马车其实没啥东西MapReduce 的思想是怎么发明的?
请问为什么现在big data的toolkit都是和java有紧密的关系?在Hadoop 2.7上如何实现 MapReduce Job Chaining?
mapreduce, hadoop还能火几年?big data,菜凉?
Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?我要做一个Java演示系统,用哪些前台技术比较好?
Intro to Hadoop and MapReduce @ ucadicy 有人学过么? 199块 (转载)Hadoop写入的主流框架有哪些?
相关话题的讨论汇总
话题: hadoop话题: job话题: 执行话题: mapreduce话题: 数据
进入Programming版参与讨论
1 (共1页)
t***0
发帖数: 4
1
小弟刚接触大数据不久,最近做了一个项目, 可以让客户自己制定一些规则然后on
demand提交hadoop mapreduce job对自己的数据做analytics。
一般每个job执行时间从几分钟到几十分钟不等,现在大头希望大幅度缩短执行时间,
我们内部有些主意, 比如小的job用uber task, avro代替json, 压缩数据什么的,
准备做些poc。
还有什么其他办法或者替代技术能大幅缩短batchjob执行时间的? 比如spark,对只迭
代一次的运行有没有比hadoop mapreduce快很多
x*******1
发帖数: 28835
2
spark 不是号称比MapR快10000倍。 都cache 内存里面。不用每次I/O写到文件
1 (共1页)
进入Programming版参与讨论
相关主题
Hadoop写入的主流框架有哪些?请问为什么现在big data的toolkit都是和java有紧密的关系?
GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧mapreduce, hadoop还能火几年?
想画分布式系统架构图,类似Google的mapreduce系统,用什么软件比较好?Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
请教一个graph问题Intro to Hadoop and MapReduce @ ucadicy 有人学过么? 199块 (转载)
java的内存管理真是气死我了能不能在hadoop中用open mpi?
关于mapreduce一问转行做data warehouse的问个学习大数据的问题
big data怎么搞定商业报表?Flink Sparks Next Wave of Distributed Data Processing
是我的错觉么?我觉得google的三架马车其实没啥东西MapReduce 的思想是怎么发明的?
相关话题的讨论汇总
话题: hadoop话题: job话题: 执行话题: mapreduce话题: 数据