由买买提看人间百态

topics

全部话题 - 话题: mapr
首页 上页 1 2 3 4 5 6 7 8 9 下页 末页 (共9页)
m********e
发帖数: 63
1
回答一下meile的问题:
1. 公司有两个cofunder。其中一个是印度人,就是CTO,另外一个是白人,就是现在的
CEO。我对那个CTO评价很高,他很聪明,人也很好。在公司的网站上可以看到他对公司
系统体系结构解释的视频。他是一个非常聪明和优秀的工程师,IIT毕业,曾是计算机
奥赛金牌得主。在加入Google之前已经是文件系统方面的专家。在Google GFS组做了两
年mannager后出来创建了MapR。公司氛围很好,不论是中国工程师,印度工程师,还是
其他族裔的工程师,都非常敬业和合作,因为大家都希望公司能做成功(每个人都是公
司的share holder)。目前中国工程师占1/4~1/3左右。现在有很多职位,希望更过国
人来申请并加入。
2.公司支持绿卡,没问题。现在公司已经是中等规模,两百多人了,H1B,绿卡都可以
办的。
在这里分享一个小故事:在公司成立早起,一个身在印度的工程师想加入,但因为公司
不能帮他办H1,他只得先申请Google,在Google待了一年后再通过H1B transfer来这里
。我提这件事情是想说H1B, 绿卡这些事情都是活的。不要在选择工作的... 阅读全帖
a***n
发帖数: 623
2
我可以理解,但我一般不会很积极的去捍卫自己公司的名声,更不会因为别人说什么就
受到伤害或者感到郁闷,都是工作很多年的人了,没必要。
我第一个回帖其实也不是我个人的观点,也是跟不少人交流之后的看法(的确和你的感
受相差挺大,不过我在这三家里面最不看好的还是MapR)。当然后来我也给你道歉了。
bbs本来也就是交流看法的地方,不可能强求每个人回帖都陈列数据,主观没什么错,
但我,以及xmj的帖子,都没有像月光那样爆粗口也没有对你人身攻击对吧?其实外行
看到这个主题还是会受益很多的,我们的目的也就达到了。
PS我是在FLAG做大数据系统的,也希望多多交流。
m********e
发帖数: 63
3
我开这篇帖子是向大家介绍工作机会的。你上来就给泼一瓢冷水,可能正像你后来所说
,你就是想装一下B。
你有权利去发表你的观点,可是你在不适当的时间和地点发表你的观点。你还自称工作
多年的人了,难道不知道你这样的做法有很大的负面影响吗?这样无形中打击了一片在
startup工作的人向大家推荐工作机会。而恰恰是startup公司的推荐才真正有用。等公
司发展规模壮人,人人皆知的时候,根本不需要介绍和推荐,只要去面试就好了。像
FLAG这样的公司,自然一堆sourcing的人去骚扰别人,巴不得每个相关的人都来面试一
下呢。我在大公司工作的时候,从来不会到这里介绍自己的公司,提供内推,因为我知
道那没有什么用。
你口口声声说不看好MapR,谁能准确估计一个startup公司的未来呢?你如果有这个本
事的话,根本不用工作很多年,早就一票退休了,或转做VC了。就在前几年,facebook
还受到很多人的质疑呢,甚至在已经上市以后,股票都很低迷,连内部很多早期员工都
没有想到今天的股价,在以前以10块钱的二级市场价买掉了。更不要说外面的人了。
我看了你其他的帖子,也早已估计到你在某个大公司做大数据有关... 阅读全帖
a***n
发帖数: 623
4
不好意思,我也不是一毕业就在大公司工作的人,不过我也没那么脆弱人家说两句就受
不了,这种话题本来就很正常不过,好比每天都能看到大家争论C vs java、vim vs
emacs之类。另外在BBS、你的帖子下面发帖,我也不觉得是“不适当的时间和地点”,
其实那帖子多半是好奇MapR现在的状态因为前两天才和里面的朋友交流过,帖子本身没
有粗口没有人身攻击,具体不看好的理由在后面的帖子里也说了,没想到就这样居然还
把你给打击到了。。
另外startup工作在这里推荐的很多,刚刚看到还有个hortonworks的哥们儿在这里推荐
呢,难道我一个帖子就把这些人都打击到了?太夸张了吧?
我现在只想建议你,这么易受打击,还是不要在startup里面冒险的好。另外你对
startup的财富观就不正确——完全是做一票赌几年提前退休的想法嘛,你当startup都
是atm啊。
z****e
发帖数: 54598
5

oracle db的license什么用不起
是被插管吸血得还不够,就是因为利润太丰厚了
所以被盯上,然后几个阿三带着ppt过来忽悠各种产品
上workflow,上各种扯蛋得玩意,结果系统一天比一天难用
最后当年利润下滑,ceo引咎辞职,连同cio, hr的头几个一起滚蛋
我们底下干活的太清楚不过了,软件就是不能听这些阿三忽悠
都是骗子,还好当时core system是自己写的,所以保证core system不被忽悠
外围的那些系统后来全部砍掉,分公司全部卖掉,就专注地做core system
这样才算挺过来,没被插管吸血插死,这个有什么好争的
ibm websphere一个license可以卖¥32万,只能让一个cpu用一年
有几个公司这么大方能让人随便这样搞的?去ioe从本质上说就是钱的问题
都是这行的,我说的对不对,有几年经验的自然看得出来
至于你说得基于hadoop得数据库,什么意思?
hdfs是底层的file system,在此基础之上有hbase这一个数据库
而且还是cp系统,所以后来引入了ap系统的cassandra作为补充
你说基于hadoop的数据库,说实在话,我... 阅读全帖
m********e
发帖数: 63
6
这里有Spark summit上的一段视频,你感兴趣的话可以看看以了解Hadoop数据库在当前
市场上的应用情况:
http://www.mapr.com/blog/why-spark-hadoop-matters
不要觉得什么都是三行都能搞定。这么多年这么多人都没有搞定的东西怎么可能三行搞
定呢?但技术总是在进步,总有搞定的一天。等什么都搞定了,怕是就没有什么工作机
会了吧。
d********u
发帖数: 5383
7
我觉得你要先弄清楚是不是C and H根本就不稀罕G的钱和条件。你不会真的以为谁都鸟
G吧?另外,mapr有很多的私货,这是很多人看不上它的原因。

these
p***r
发帖数: 1098
a***n
发帖数: 623
9
啊我也只是随便一说装一下b你别介意。你在板上帮同胞内推我还是很赞的。
MapR也是大数据三巨头了,比起一干小startup还是靠谱很多的,估计明年中到明年下
半年这几家都会IPO。

these
m********e
发帖数: 63
10
Providing more information about the company:
MapR Technologies provides enterprise level Hadoop platform and it has 500+
paying customers. Its main competitors are Cloudera and Hortonworks.
Recently it got fund from Google capital and Qualcomm venture and expends
quickly. Currently the company has totally about 250 employees worldwide and
about 50 engineers. The engineer team has a lot of openings and will
continue hiring in the next few month.
It would be good if the candidates have distribute... 阅读全帖
m********e
发帖数: 63
11
MapR has 500+ paying customers and its business model is not like those
burning-money startups. Actually, the company does not want to take too much
fund which dilutes employee's stock options. Taking fund from Google and
Qualcomm is more
because of partnership than just taking money from them.
The reason that I mention Google capital is because this fund only invests
late stage startups. If you know those companies better, you should know
that Google also invested Hortonworks some time ago thro... 阅读全帖
z*****i
发帖数: 366
12
MapR有个问题很严重,它很多东西不open source的,全是自己的私货。不是说这样不
可以,只是这样的前途我不看好。
Google打水漂的钱多了去了。只要做VC,风险是少不了的。 late stage不意味着风险
就小。想想看,为什么别人不投?
C和H现在有多少人?500人的公司不会给你什么OPTIONS上的甜头了。

much
.
fund
x*j
发帖数: 271
13
如果我没记错,那个头应该是InfoSys过来的一个老印。客观说MapR不算坏公司,除了
不开源,老印多一些,但是也不像楼主说得那样promising。尤其google capital投资
这个事情,有些言过其实。
a***n
发帖数: 623
14
月光你怎么还在JH。
我觉得xmj说的没错,cloudera是08年的,MapR是09年的,hortonwork是11年的,5年前
做big data的起码有cloudera和yahoo、google这几家了。他对这三家公司的介绍也很
有价值,起码和我了解的是一样的。
这里不是股版,喷人请有理有据。
m********e
发帖数: 63
15
回答一下meile的问题:
1. 公司有两个cofunder。其中一个是印度人,就是CTO,另外一个是白人,就是现在的
CEO。我对那个CTO评价很高,他很聪明,人也很好。在公司的网站上可以看到他对公司
系统体系结构解释的视频。他是一个非常聪明和优秀的工程师,IIT毕业,曾是计算机
奥赛金牌得主。在加入Google之前已经是文件系统方面的专家。在Google GFS组做了两
年mannager后出来创建了MapR。公司氛围很好,不论是中国工程师,印度工程师,还是
其他族裔的工程师,都非常敬业和合作,因为大家都希望公司能做成功(每个人都是公
司的share holder)。目前中国工程师占1/4~1/3左右。现在有很多职位,希望更过国
人来申请并加入。
2.公司支持绿卡,没问题。现在公司已经是中等规模,两百多人了,H1B,绿卡都可以
办的。
在这里分享一个小故事:在公司成立早起,一个身在印度的工程师想加入,但因为公司
不能帮他办H1,他只得先申请Google,在Google待了一年后再通过H1B transfer来这里
。我提这件事情是想说H1B, 绿卡这些事情都是活的。不要在选择工作的... 阅读全帖
a***n
发帖数: 623
16
我可以理解,但我一般不会很积极的去捍卫自己公司的名声,更不会因为别人说什么就
受到伤害或者感到郁闷,都是工作很多年的人了,没必要。
我第一个回帖其实也不是我个人的观点,也是跟不少人交流之后的看法(的确和你的感
受相差挺大,不过我在这三家里面最不看好的还是MapR)。当然后来我也给你道歉了。
bbs本来也就是交流看法的地方,不可能强求每个人回帖都陈列数据,主观没什么错,
但我,以及xmj的帖子,都没有像月光那样爆粗口也没有对你人身攻击对吧?其实外行
看到这个主题还是会受益很多的,我们的目的也就达到了。
PS我是在FLAG做大数据系统的,也希望多多交流。
m********e
发帖数: 63
17
我开这篇帖子是向大家介绍工作机会的。你上来就给泼一瓢冷水,可能正像你后来所说
,你就是想装一下B。
你有权利去发表你的观点,可是你在不适当的时间和地点发表你的观点。你还自称工作
多年的人了,难道不知道你这样的做法有很大的负面影响吗?这样无形中打击了一片在
startup工作的人向大家推荐工作机会。而恰恰是startup公司的推荐才真正有用。等公
司发展规模壮人,人人皆知的时候,根本不需要介绍和推荐,只要去面试就好了。像
FLAG这样的公司,自然一堆sourcing的人去骚扰别人,巴不得每个相关的人都来面试一
下呢。我在大公司工作的时候,从来不会到这里介绍自己的公司,提供内推,因为我知
道那没有什么用。
你口口声声说不看好MapR,谁能准确估计一个startup公司的未来呢?你如果有这个本
事的话,根本不用工作很多年,早就一票退休了,或转做VC了。就在前几年,facebook
还受到很多人的质疑呢,甚至在已经上市以后,股票都很低迷,连内部很多早期员工都
没有想到今天的股价,在以前以10块钱的二级市场价买掉了。更不要说外面的人了。
我看了你其他的帖子,也早已估计到你在某个大公司做大数据有关... 阅读全帖
a***n
发帖数: 623
18
不好意思,我也不是一毕业就在大公司工作的人,不过我也没那么脆弱人家说两句就受
不了,这种话题本来就很正常不过,好比每天都能看到大家争论C vs java、vim vs
emacs之类。另外在BBS、你的帖子下面发帖,我也不觉得是“不适当的时间和地点”,
其实那帖子多半是好奇MapR现在的状态因为前两天才和里面的朋友交流过,帖子本身没
有粗口没有人身攻击,具体不看好的理由在后面的帖子里也说了,没想到就这样居然还
把你给打击到了。。
另外startup工作在这里推荐的很多,刚刚看到还有个hortonworks的哥们儿在这里推荐
呢,难道我一个帖子就把这些人都打击到了?太夸张了吧?
我现在只想建议你,这么易受打击,还是不要在startup里面冒险的好。另外你对
startup的财富观就不正确——完全是做一票赌几年提前退休的想法嘛,你当startup都
是atm啊。
z****e
发帖数: 54598
19

oracle db的license什么用不起
是被插管吸血得还不够,就是因为利润太丰厚了
所以被盯上,然后几个阿三带着ppt过来忽悠各种产品
上workflow,上各种扯蛋得玩意,结果系统一天比一天难用
最后当年利润下滑,ceo引咎辞职,连同cio, hr的头几个一起滚蛋
我们底下干活的太清楚不过了,软件就是不能听这些阿三忽悠
都是骗子,还好当时core system是自己写的,所以保证core system不被忽悠
外围的那些系统后来全部砍掉,分公司全部卖掉,就专注地做core system
这样才算挺过来,没被插管吸血插死,这个有什么好争的
ibm websphere一个license可以卖¥32万,只能让一个cpu用一年
有几个公司这么大方能让人随便这样搞的?去ioe从本质上说就是钱的问题
都是这行的,我说的对不对,有几年经验的自然看得出来
至于你说得基于hadoop得数据库,什么意思?
hdfs是底层的file system,在此基础之上有hbase这一个数据库
而且还是cp系统,所以后来引入了ap系统的cassandra作为补充
你说基于hadoop的数据库,说实在话,我... 阅读全帖
m********e
发帖数: 63
20
这里有Spark summit上的一段视频,你感兴趣的话可以看看以了解Hadoop数据库在当前
市场上的应用情况:
http://www.mapr.com/blog/why-spark-hadoop-matters
不要觉得什么都是三行都能搞定。这么多年这么多人都没有搞定的东西怎么可能三行搞
定呢?但技术总是在进步,总有搞定的一天。等什么都搞定了,怕是就没有什么工作机
会了吧。
s****d
发帖数: 56
21
来自主题: JobHunting版 - 吐槽一下MapR的HR
Fresh PhD,暑假毕业,投的fulltime职位
MapR的HR screening,
先问有没其他offer,回答有两个口头offer
她居然问: Why are you still looking, since you already have offers?
问background的时候,说,
You speak too fast and I cannot record what you said.
更奇葩的是问
Your F1 Visa only allows you to work 20 hrs a week, what are you looking for?
整个电话过程中语气也是居高临下。。
g********t
发帖数: 212
22
来自主题: JobHunting版 - 吐槽一下MapR的HR
个人感觉mapr是三大hadoop mapreduce公司里最找不着北的一个....

for?

发帖数: 1
23
工作有设计这方面 用过mapr cdh hdp。cdh hdp明显占有率更高 也已经很成熟 大部分
hadoop commiter都在这两家
[在 rebo (w-k) 的大作中提到:]
:拿的google vest的钱,business model感觉比cloudera好,自己的高性能实现。就是
不知道什么时候上市,上市多少钱...大家有什么看法呢?能学到东西么??
y*****r
发帖数: 255
24
来自主题: SanFrancisco版 - 有人熟悉MapR吗?
拿到了MapR的offer。现在大概50-100人。这个公司靠谱吗?
我是ms+3年经验。给了1%股票(当然是option),号称目前市值是50M。值得去吗?
目前工作挺养老的。。。
m********e
发帖数: 63
25
来自主题: SanFrancisco版 - MapR Technologies has a lot of openings
I did not say you cannot reject the offer. Everyone has their preference
especially when he/she got multiple offers. But I will only refer the person
who think MapR is his/her top choice. If not, please do not let me refer
you, you can apply for the job by submitting your resume through the company
's website.
I have a reason for that. If I refer people who only use my company as
backup and reject the offers after going through the whole process, that
will be hard for me to refer other people wh... 阅读全帖
w***g
发帖数: 5958
26
mapr的filesystem团队竟然在印度!我觉得这个filesystem做得还是比较牛的。
m*****k
发帖数: 731
27
来自主题: Java版 - hadoop quickstart 疑问
我在试http://hadoop.apache.org/common/docs/r0.20.2/quickstart.html
我用的是win7 和 cygwin,
Standalone Operation
By default, Hadoop is configured to run in a non-distributed mode, as a
single Java process. This is useful for debugging.
The following example copies the unpacked conf directory to use as input and
then finds and displays every match of the given regular expression. Output
is written to the given output directory.
$ mkdir input
$ cp conf/*.xml input
在这一步
$ bin/hadoop jar hadoop-*-examples.ja... 阅读全帖
m*****k
发帖数: 731
28
来自主题: Java版 - hadoop quickstart 疑问
我在试http://hadoop.apache.org/common/docs/r0.20.2/quickstart.html
我用的是win7 和 cygwin,
Standalone Operation
By default, Hadoop is configured to run in a non-distributed mode, as a
single Java process. This is useful for debugging.
The following example copies the unpacked conf directory to use as input and
then finds and displays every match of the given regular expression. Output
is written to the given output directory.
$ mkdir input
$ cp conf/*.xml input
在这一步
$ bin/hadoop jar hadoop-*-examples.ja... 阅读全帖
m***r
发帖数: 359
29
来自主题: DataSciences版 - 大数据日报 2015年3月楼
大数据日报 2015-03-12
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-03-12/short.html
1) 【Docker的典型应用场景】 by @云创存储
关键词:虚拟化, Docker, 容器
【Docker的典型应用场景】相对于VM,docker在其轻量、配置复杂度以及资源利用率方
面有着明显的优势。 随着docker技术的不断成熟,越来越多的企业开始考虑通过
docker来改进自己的IT系统。本文列举一些docker的实际应用场景,以期能够起到抛砖
引玉的作用…… [1] @专注云计算
[1] http://www.cstor.cn/textdetail_8581.html
2) 【MapR联合创始人:2015年5个大数据技术预测】 by @36大数据网
关键词:计算框架, 应用, Hadoop, John Schroeder
【MapR联合创始人... 阅读全帖
r*******k
发帖数: 44
30
来自主题: Programming版 - coltzhao的公司还在用mongo吗?
看见大家提到spark,溜进来说说观点。同mapreduce 比起来,spark 的确提供了一种
新的计算方式,但他的应用场景有很大的限制, 看一下quora的问答:
http://www.quora.com/What-are-use-cases-for-spark-vs-hadoop
基本上有2点:
1. From the machine learning side: 比如说你有很大的data, and want to apply
different ML algorithms to the same piece of data iteratively。mapred 基本上
需要load data from file system every time. spark 则可以保证这些data in
memory to avoid io. 在这种场景下,spark 可以带来极大的performance 提升。
2. Interactive Analytics: still, load some data in memory and do something
iteratively.
第一... 阅读全帖
H***e
发帖数: 476
31
来自主题: JobHunting版 - [网flix]面经
1。很多hadoop相关的问题,mapred整个流程,碰到过的出现的问题,设计有什么flaws
, hadoop和relational db的比较; speculative execution, 我知道这个机制,但是没
有跟名字对上号..就说没听说过。
2。mapreduce怎么实现select count group by; 如何一次mapred实现两个group by
(stduentId, courseId)
select count * from table group by studentId;
select count * from table group by courseId;
3。两个element加起来target的经典题
4。实现一个Boundedqueue,threadsafe,并且最佳化性能。
都答出来了,但是hadoop那些模糊问题的就答得不好。
l*****t
发帖数: 2019
32
hadoop components : mapreduce,hdfs(copycat of google GFS or now colossus),
hbase(copycat of google.BigTable or spanner now), hive, pig, zookeeper,oozie
,flume,sqoop,hcat.etc
hadoop version: many v1 that's.0.x and YARN aka verson hadoop 2.0
hadoop vendor: apache, cloudera, mapr, hortonworks. arguably (who claims
support MapReduce) greenplum, datastax( Cassandra vendor that supports
MapReduce on CFS), Hadapt(Hadoop and SQL),heard couchdb,mongodb all supports
MapReduce now.
Hadoop new:
1) impala ... 阅读全帖
r*******k
发帖数: 44
33
看你要学习什么了。如果是只是mapred 编程,理论上(只是理论上)1、2 上的mapred
代码兼容。你不需要了解yarn那些乱七八糟的service。
如果你要了解分布计算比如hadoop, mpi 之类的系统设计,当然要知道一些yarn的构架
,交互之类。
运营方面,据我所知,即便是这个领域的人,多数也就是聊聊,实用的不会很多。
如果只是初学者,不用关注过多。绝对不会有公司(除了hortonworks?)要求
candidate 有yarn 经验。
c******n
发帖数: 4965
34
来自主题: Programming版 - java error 新手问题, 请帮忙看看
java.lang.IllegalAccessError: tried to access field org.apache.hadoop.mapred
.JobClient.jobSubmitClient from class org.apache.hadoop.mapred.aa
aa 明显是跟 JobClient 是同一个package, JobClient.jobSubmitClient 是default
access , 就是package,
那aa 应该可以access jobSubmitClient 啊????
为什么出错呢?
多谢
c******n
发帖数: 4965
35
来自主题: Programming版 - java error 新手问题, 请帮忙看看
java.lang.IllegalAccessError: tried to access field org.apache.hadoop.mapred
.JobClient.jobSubmitClient from class org.apache.hadoop.mapred.aa
aa 明显是跟 JobClient 是同一个package, JobClient.jobSubmitClient 是default
access , 就是package,
那aa 应该可以access jobSubmitClient 啊????
为什么出错呢?
多谢
w***g
发帖数: 5958
36
非要上文件系统的话可以用MapR。这个是用来drop in替代HDFS的,而且设计非常科学
,存大文件小文件都没有问题。性能上可以秒杀HDFS。我在地下室就搞了个8个节点的
MapR机群用来存数据(自己做民科实验,用不起amazon)。Ceph我看过一两眼。这东西出
发点是并行计算而不是文件系统,存临时数据还可以,用来做主存储服务还是算了。
r*******k
发帖数: 44
37
来自主题: Programming版 - coltzhao的公司还在用mongo吗?
> 就spark这么简单易用就比mapreduce强几条街
你的意思是说spark的scala interface 比用java 写mapred code 简单?还是说spark
比mapred easier to deploy and manage?
``强几条街'' 完全是你个人的感觉还是大家普遍的看法?就像hive 和shark 的出发点
,都是希望提供一个更友好的数据访问方法,但实际执行和使用起来就是另一会儿事儿
了。
如果你只是喜欢scala来写mapreducde,这点无法说明spark实现本身如何出色。况且现
在多数人直接使用pig之类更高层的一些query language.
第二个问题就更不好说了,有真的production usage 吗?yahoo lab 不算啊,那种十
个八个node cluster也不算啊
我也觉得spark想法不错,某些场景很有用。但他们现在有点吹过了,每次看他们说比
hadoop 快100倍就头疼,我不知道他们到时如何能够更够圆这个说法。terasort比
hadoop快100倍?
s******5
发帖数: 141
38
来自主题: Programming版 - MapReduce 的思想是怎么发明的?
刚开始接触,有点疑惑。问题可能有些幼稚,请多包涵
这个framework是怎么被想到的?
做个类比,就是当年数据库刚出现的时候,有很多种不同的作法,后来大浪淘沙,
RDBMS一枝独秀。
那么big data 刚出现的时候,也有很多种不同的处理方法么?MapR是怎么确定统治地
位的?
另外现在spark,这么火,它跟MapR有本质区别么(除了中间产物存在内存以外)?要说
它可以把一系列job串在一块, Pig不是也可以做么?spark应该也是把一个mapping转
化成另一种mapping吧?
多谢
d********w
发帖数: 363
39
来自主题: JobHunting版 - [apple面经] iOS software engineer
你会hadoop,还是很多机会的, 也可以试试cloudera, hortonworks, greenplum, mapr
, teradata, 甚至oracle, amazon, facebook都有组在做这方面的
d********w
发帖数: 363
40
来自主题: JobHunting版 - [apple面经] iOS software engineer
你会hadoop,还是很多机会的, 也可以试试cloudera, hortonworks, greenplum, mapr
, teradata, 甚至oracle, amazon, facebook都有组在做这方面的
a*****s
发帖数: 1121
41
来自主题: JobHunting版 - zz 2012年值得关注的12家Hadoop厂商
MapR号称自己可以有2-10倍的加速比,如果和apache hadoop。一直很怀疑这个数据,
对于小任务,shuffle是瓶颈。想知道他们有什么突破。
d********w
发帖数: 363
42
来自主题: JobHunting版 - hadoop面试和学习总结
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->... 阅读全帖
d********w
发帖数: 363
43
来自主题: JobHunting版 - hadoop面试和学习总结
随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->... 阅读全帖
P********e
发帖数: 387
44
来自主题: JobHunting版 - hadoop面试和学习总结
mark

随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr........
★ Sent from iPhone App: iReader Mitbbs 7.56 - iPad Lite
r****s
发帖数: 1025
45
来自主题: JobHunting版 - hadoop面试和学习总结
MapReduce就是扯淡,你只要用过就知道,慢的要死,而且复杂得很。
这里面居然一句都不提Hive,很明显都是菜鸟。没有Hive的MapReduce简直不可想象(
知道我在说啥吗?)。Hive慢得要死,简单的一个select4 * from,4行的小文件,要
10秒。不过最终还是可以给你算出来。
Impala就是一个joke,内存总量不能小于table join的intermediate step,一看就是
把内存版的MapReduce。Storm/Stream MapReduce好像有点戏。
现在玩的就是怎么代替MapReduce。
这里面的最大的玩家是Impala(Cloudera)和Apache Drill(MapR)。Apache Drill抄的
是Google的Dremel。Apache Drill基本上比Impala要滞后两个季度左右的进度。
Spring/EJB之类的连Joke都算不上。现在谁还用EJB? Spring和大数据一点点关系都没
有,属于胡搅蛮缠凑热闹的。
另外说一句,Hive是Facebook的东西,Dremel是Google的,两公司差距不小。
r****s
发帖数: 1025
46
来自主题: JobHunting版 - hadoop面试和学习总结
因为除了MapReduce没别的好用了,大家就忍了。
现在大家觉得MapReduce太慢了,所以Cloudera才开始全部上内存,Cloudera的意思是
,你如果要处理1T的数据,那就得要1T的内存,不够,就crash,问你怕未?
Doug Cutting就在Cloudera,MapReduce就是他最先做出来的。
那个啥HortonWorks的阿三就在瞎JB吹,有本事就去Apache Drill把东西做出来--对了
,Apache Drill是MapR。
l*****t
发帖数: 2019
47
来自主题: JobHunting版 - hadoop面试和学习总结
俺就小声说一句, 你给的那个select 不trigger mapred的。
d********w
发帖数: 363
48
来自主题: JobHunting版 - [hortonworks面经] senior hadoop engineer
他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join,... 阅读全帖
d********w
发帖数: 363
49
来自主题: JobHunting版 - [hortonworks面经] senior hadoop engineer
他家就基本上全是老印,但看他们做的还挺high的,blog更新的很频繁
0. hadoop大致问题
partition默认方式是什么,
1. HDFS 讨论,如何设置replica策略,默认是3,放置在local, local rack,
remote,但还是不够efficiently, 我看了mapr他们讲的策略,可以减少replica到1.5
,把数据切成一小块chunk,通过算法可以实现损失任意1/3的数据块,都可以恢复。还
有中想法是讲数据分成hot, cold,对hot数据尽量多写replica,cold就要achieve,定期
做merge
2. High Availability
提到0.23这个版本的改进,变化挺大的
3. next generation mapreduce framework. MR2
大致是把mesos, mapreduce,和其他并行计算的engine,通过配置嵌入到系统中,有
扩展性,方便支持其他的引擎,而不仅仅是以前的mapreduce一种了。
4. Pig组
特别是对join操作的优化,什么skew join, partition join,... 阅读全帖
W***o
发帖数: 6519
50
一个code run hadoop map/reduce能够运行,而且结果正确
但是稍作改动(增加了一些针对String.matches()的过滤),但是改动以后hadoop就卡在
13/10/23 06:28:26 INFO mapred.JobClient: map 100% reduce 0% 不动,请问这可
能会是什么错误?怎么调试呢?
首页 上页 1 2 3 4 5 6 7 8 9 下页 末页 (共9页)