|
d**********3 发帖数: 1186 | 2 【 以下文字转载自 Pharmaceutical 讨论区 】
发信人: derekdai1213 (derek.dai), 信区: Pharmaceutical
标 题: Cloudera Hadoop Data Analyst 培训视频
发信站: BBS 未名空间站 (Sun Mar 22 20:25:59 2015, 美东)
视频分享
http://youtu.be/Eoo7Y0CgL1s |
|
l**d 发帖数: 746 | 3 公司可以给我报销Cloudera Certified Developer for Apache Hadoop (CCDH)的考试
费用,但是要我自学。我找朋友要了他以前的资料,但是他的Hands On Exercise
Manual找不到了。版上有人有么?多谢! |
|
s****h 发帖数: 3979 | 4 I found this jar file:
https://github.com/ogrodnek/csv-serde
However, got error saying the jar file doesn't exist when I run
add jar /user/jarTemp/csv-serde-1.1.2-0.11.0-all.jar;
Any idea?
For Cloudera, the jar file(s) has to be in specific path?
Thanks. |
|
s****h 发帖数: 3979 | 5
I prefer the jar file approach, as we might have too many files in future to
load manually in HUE GUI.
Try to follow the link below:
http://gethue.com/hadoop-tutorial-create-hive-tables-with-heade
However, I can't see the action part (create table from file, and create
table manually) in metastore manager.
Any idea?
Our IT dept creates the environment and gives me an account.
I believe they just use the OTB cloudera CDH image.
Is that a privilege issue?
Thanks. |
|
a**d 发帖数: 4285 | 6 请问版上哪位大牛拿到了cloudera的证书,需要自学哪些内容呢?有具体的课程和步骤
就最好了。谢谢!!! |
|
d*2 发帖数: 2053 | 7 http://vision.cloudera.com/impala-v-hive/
by Mike Olson
December 22, 2013
We introduced Cloudera Impala more than a year ago. It was a good launch for
us — it made our platform better in ways that mattered to our customers,
and it’s allowed us to win business that was previously unavailable because
earlier products simply couldn’t tackle interactive SQL workloads.
As a side effect, though, that launch ignited fierce competition among
vendors for SQL market share in the Apache Hadoop ecosystem, w... 阅读全帖 |
|
p*****2 发帖数: 21240 | 8 美国软件公司Splunk周四在纳斯达克的首日交易令人印象深刻,该公司股价当日报收于
35.48美元,与17美元的IPO(首次公开募股)发行价相比翻了一番。这引发了投资者对
一直相对不起眼的大数据公司板块的关注。
“大数据”基本上是一个包罗万象的术语,指的是收集和分析大量信息的能力,而这些
信息涉及到人类生活的方方面面。过去数据分析可能需要昂贵的数据库和专业化的技术
,Splunk使数据分析变得更为廉价和简单。
“大数据”正变得热门
无论是来自一般商业领域还是零售、医疗、气候等专门领域的大数据都可用来盈利,这
种可能性让投资界感到兴奋。
前微软投资人、现任风投公司Ignition Partners风投家的约翰·康纳斯(John
Connors)表示:“与两周前相比,现在的投资者对‘大数据’有了更多的了解;而在
未来一个月,他们对‘大数据’的了解又将比现在更多。”康纳斯在Ignition
Partners负责对Splunk的投资事宜。
大数据公司的一些投资者在做出初始投资之后,要经过相当长的一段时间才开始意识到
他们投资的大数据公司。
戴夫·霍尔尼克(DaveHornik)是Splunk的... 阅读全帖 |
|
|
|
s*****r 发帖数: 4 | 11 参加克劳迪娅的培训应该是最快捷的吧,3天或者4天搞掂
开发和数据处理分析相关的培训:
Cloudera Developer Training for Apache Hadoop
Cloudera Developer Training for Apache Spark
Designing and Building Big Data Applications
Cloudera Training for Apache HBase
Cloudera Search Training
Cloudera Data Analyst Training: Using Pig, Hive and Impala with Hadoop
Introduction To Data Science
如希望对系统也感兴趣,可以考虑:
Cloudera Administartor Training for Apache Hadoop |
|
t******g 发帖数: 372 | 12 thanks a lot,
am I geting the right md5? having some problem when extracting those 7z.00*
files, here is what I got,
41145092e731ebd4187af72047c8d077 Cloudera-Administrator-Training-VM-4.2.7z.
001
67139df49190f1afd9b71b38a151646b Cloudera-Administrator-Training-VM-4.2.7z.
002
4e132fc27810741b922ef678fe5a7579 Cloudera-Administrator-Training-VM-4.2.7z.
003
78cf699524f126c9462d3c305be46f77 Cloudera-Administrator-Training-VM-4.2.7z.
004
73d3a3f6049079cd1aac9b65b934afc8 Cloudera-Administrator-Tr... 阅读全帖 |
|
t******g 发帖数: 372 | 13 thanks a lot,
am I geting the right md5? having some problem when extracting those 7z.00*
files, here is what I got,
41145092e731ebd4187af72047c8d077 Cloudera-Administrator-Training-VM-4.2.7z.
001
67139df49190f1afd9b71b38a151646b Cloudera-Administrator-Training-VM-4.2.7z.
002
4e132fc27810741b922ef678fe5a7579 Cloudera-Administrator-Training-VM-4.2.7z.
003
78cf699524f126c9462d3c305be46f77 Cloudera-Administrator-Training-VM-4.2.7z.
004
73d3a3f6049079cd1aac9b65b934afc8 Cloudera-Administrator-Tr... 阅读全帖 |
|
a*****s 发帖数: 1121 | 14 貌似市场没有cloudera做的好。cloudera的CEO是前Oracle的,cloudera的cloudera
manager 做的也不错,还没看到hortonworks的同等产品。 |
|
a*****s 发帖数: 1121 | 15 貌似市场没有cloudera做的好。cloudera的CEO是前Oracle的,cloudera的cloudera
manager 做的也不错,还没看到hortonworks的同等产品。 |
|
d********w 发帖数: 363 | 16 http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖 |
|
d********w 发帖数: 363 | 17 http://dongfei.baijia.baidu.com/article/54768
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多
东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平
台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补
充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给
大家有个铺垫,简单讲一些相关开源组件。
背景篇
Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计
算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括
HDFS,MapReduce基本组件。
HDFS:提供了一种跨服务器的弹性数据存储系统。
MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射
(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的
输出。
Amazon Elastic Map Red... 阅读全帖 |
|
c***z 发帖数: 6348 | 18 You need the following things:
1. An editor, I use sublime2, the cloudera package uses Gedit
2. A cluster with Pig installed at the edge nodes, you can use the VM in the
cloudera package
3. A file transfer to move Pig code from local drive (if you edit locally)
to edge node, I use Winscp, the cloudera package uses Hue
4. A way to run the code at edge node, I use putty, the cloudera package
uses Hue
My work flow: write Pig code locally using sublime2, upload code to edge
node using winscp, run co... 阅读全帖 |
|
c***z 发帖数: 6348 | 19 You need the following things:
1. An editor, I use sublime2, the cloudera package uses Gedit
2. A cluster with Pig installed at the edge nodes, you can use the VM in the
cloudera package
3. A file transfer to move Pig code from local drive (if you edit locally)
to edge node, I use Winscp, the cloudera package uses Hue
4. A way to run the code at edge node, I use putty, the cloudera package
uses Hue
My work flow: write Pig code locally using sublime2, upload code to edge
node using winscp, run co... 阅读全帖 |
|
z*******n 发帖数: 1034 | 20 Here they are.
Actifio: The company developed a way to pare down the number of copies of a
given piece of data while ensuring it will be available whenever someone
needs it. Back in March, Actifio’s valuation was “a good $100 million over
$1 billion,” founder and chief executive Ash Ashutosh told VentureBeat.
Airbnb: It’s not clear that the company is ready to go public, but this
doesn’t mean it’s an impossibility. In August, Airbnb disclosed that it
had taken on a whopping $475 million funding ... 阅读全帖 |
|
|
r****s 发帖数: 1025 | 22 因为除了MapReduce没别的好用了,大家就忍了。
现在大家觉得MapReduce太慢了,所以Cloudera才开始全部上内存,Cloudera的意思是
,你如果要处理1T的数据,那就得要1T的内存,不够,就crash,问你怕未?
Doug Cutting就在Cloudera,MapReduce就是他最先做出来的。
那个啥HortonWorks的阿三就在瞎JB吹,有本事就去Apache Drill把东西做出来--对了
,Apache Drill是MapR。 |
|
n****p 发帖数: 193 | 23 Big data means big IT job opportunities -- for the right people
As companies embrace big data, they're in the market for high-level
strategists and communicators. Do you have the chops to snag a big data job?
As big data gathers momentum, it's helping to create big career
opportunities for IT professionals -- if they have the right qualifications.
According to a report published in 2011 by McKinsey & Co., the U.S. could
face a shortage by 2018 of 140,000 to 190,000 people with "deep analytical
t... 阅读全帖 |
|
p*****2 发帖数: 21240 | 24 大数据可能是现在科技界与VC界最关注的热词了。似乎和大数据沾不上边的互联网公司
、甚至是传统产业公司,都没前途。
是热词,则必有泡沫。而在泡沫之下,一些真的在创造与挖掘大数据价值的公司、特别
是创业公司,倒未见得为人所知。
这里就有一些可能还处于“隐身模式”中的公司,它们目前正忙于完成最后的收尾工作
,将把足以改变“游戏规则”的技术呈现在世人面前。
这些大数据创业公司的团队,很多是来自于谷歌、Facebook这些巨头。其中有些创业公
司以分析为重点,有些以内存数据库为重点。此外,还有其他一些创业公司则正在大力
开发NoSQL数据库(非关系型数据库)技术。
美国科技博客网站Business Insider为我们列出了14家正在崛起的大数据创业公司。它
们的业务、模式,或许值得国内关注大数据创业的同学借鉴。可以看到,这些公司后面
,都是实力雄厚的VC。
“大数据之所以有趣,是因为它将是未来许多年时间里的一个重大投资领域。大数据浪
潮将持续很久,而不会是18个月或24个月以后就宣告终结。”风险投资公司Accel
Partners普通合伙人李平曾说。
这些已获得融资的大数据创业公司的增长动量正... 阅读全帖 |
|
|
|
w**z 发帖数: 8232 | 27 http://www.businessinsider.com/best-startup-ceos-to-work-for-20
12. Uber CEO Travis Kalanick has a 58% approval rating.
12. Uber CEO Travis Kalanick has a 58% approval rating.
Paul Sakluma/AP
CEO: Travis Kalanick
CEO rating: 58%
Number of ratings: 254
What employees are saying: "TK [Travis Kalanick] might be our hardest worker
. He's smart and principled and very candid at our weekly company-wide TK Q&
A. It's great having a leader you really believe in."
What it does: Founded in 2009, Uber is a... 阅读全帖 |
|
l*****t 发帖数: 2019 | 28 business model像当年的cloudera。火的程度也像当年的cloudera。exit也会和
cloudera差不多。有没有down round式的IPO那就看他家自己的造化了 |
|
z****n 发帖数: 3189 | 29 之前研究数据库存储引擎的时候,大概了解过mongodb,现在生产环境中也有在用
mongodb,大概100多个instance吧
总的来说,是好产品
产品很solid,是c++写的,处理大数据有很完善的解决方案,集群功能可以直接上生产
环境(oracle,db2基本就是靠这个功能赚钱),但是mongodb不收你一分钱。从3.0开始基
本没有坑,只要用好了,基本不用老夫操心。上线初期老夫踩过一点索引的坑,还有就
是丢数据的坑,调好后基本没再遇过问题。
他们的看家存储引擎(wiredtiger)不是自己写的,是另外一个opensource项目
老夫对他们没有实现wiredtiger的lsm算法十分不爽
现在mongodb之所以亏损,是因为他们没有找到好的盈利点,这点比较类似初期的mysql
那么,nosql中,最好的解决方案是不是mongodb呢
看应用,就老夫来看,不是
小数据量应用上mysql , mysql 从8.0开始直接对json字段操作,老夫觉得小应用场景
下可以替代monogodb。为什么呢,因为mysql可以当nosql用,也可以不当nosql用,功
能更多啊
大数据量应用... 阅读全帖 |
|
s****s 发帖数: 15 | 30 【 以下文字转载自 Stock 讨论区 】
发信人: zuihan (前按摩店忠实股东), 信区: Stock
标 题: 说一下nosql和mongodb
发信站: BBS 未名空间站 (Sun Jan 6 14:22:58 2019, 美东)
之前研究数据库存储引擎的时候,大概了解过mongodb,现在生产环境中也有在用
mongodb,大概100多个instance吧
总的来说,是好产品
产品很solid,是c++写的,处理大数据有很完善的解决方案,集群功能可以直接上生产
环境(oracle,db2基本就是靠这个功能赚钱),但是mongodb不收你一分钱。从3.0开始基
本没有坑,只要用好了,基本不用老夫操心。上线初期老夫踩过一点索引的坑,还有就
是丢数据的坑,调好后基本没再遇过问题。
他们的看家存储引擎(wiredtiger)不是自己写的,是另外一个opensource项目
老夫对他们没有实现wiredtiger的lsm算法十分不爽
现在mongodb之所以亏损,是因为他们没有找到好的盈利点,这点比较类似初期的mysql
那么,nosql中,最好的解决方案是不是mongodb... 阅读全帖 |
|
x****o 发帖数: 21566 | 31 连一扇门都敢于大胆表达自己的性向了,你,还在顾虑什么! -- 国内基本是支持女同
反男同的,像是门上都写“拉拉”,可窗户上都写“小心玻璃”
一个到Google北京Office出差的印度同事有一天向中国员工抱怨: “靠,你们国家太
不友好了,小店门上贴着”Laser Attack India。” 中国同事下楼跑去那小店一看,
”激光打印“
IBM在招Cloudera的大数据架构师,要求有8年的Cloudera实现经历。结果Cloudera的创
始人Mike Olson跳出来说:哎哟,我才7年...
我有一个二货室友买了十个充气娃娃,一直不知道他买这么多干嘛,直到昨天我看到他
对着十个排列整齐的娃娃说:今天我们开始翻牌了,贵妃们准备好了吗..
一哥们,女朋友怀孕了,只能奉子成婚了。几个哥们聚会,一次闲聊中,“你们说说,
唉,我每次都吃了毓婷的,为什么我的女朋友还是怀孕了呢?”答:“因为别的男人没
有吃!”顿时一片倒吸凉气声……
健身房今天放的电视剧讲的是一个屌丝程序员想追模特白富美,被痛斥“没钱没房子没
车你还敢追我”后,毅然发挥自己计算机特长,把白富美的床照偷了出来威胁她放上网
,从而达... 阅读全帖 |
|
H*********e 发帖数: 276 | 32 同问.奇怪。为何没想过文学城那个老土?
"做sql bi或者data,比较容易上手,靠个证书
,从7-8w做起,写写sql 应该没啥问题,学点cloudera, ssis hardoop"
-- 不需考任何证书.找工作不是靠证书.
-- 花时间考一堆证书,仍找工无门的书生比比皆是.
-- 做过Hiring Manager 的都知道, 证书只说明你在拿怔书之前神马都不会.
我们招你来,是看上你能来为我解决问题,而不是看你有怔书.
-- 复习考证不要时间吗? 时间成本算过没有? 能走捷径很快高薪上班, 为何浪费高薪
的时间在没用的考证上? 损失太大了.
"从7-8w做起,写写sql 应该没啥问题,学点cloudera, ssis hardoop"
-- 虽然老土也教, 但是,先不要从 Cloudera, hadoop开始,用的面很窄,不是你的菜.
抽时间看看别的博士们都怎么短平快转过来的, 大家都不是傻子, 聪明度都差不多:
中华民族复兴, 两岸同胞不用再修学位, 不用考证,高薪进大公司!
美国老土八年真人教课千人变万家福, 转行必找老土! 每周两次网会辅导, 同学多热气
高, 转行... 阅读全帖 |
|
m*****k 发帖数: 731 | 33 多谢老赵费心,
改examples module 的pom.xml容易,我查的是
https://repository.cloudera.com/cloudera/cloudera-repos/org/apache/spark/ (
看parent pom.xml 的repositories)
所以 我的改动
1.2.0-cdh5.3.0-SNAPSHOT
能让eclipse happy
但我的疑问是:
啥都不改动时,pom refer 的jar 找不到,
为何cmd line 在parent folder build 通过了?output 也显示各module build 都
successful,
我也看到example module 的java class 都生成在target/scala-2.10/classes/org/
apache/spark/examples/ 中,
但是 .m2/repository 没有那些1.2.0-SNAPSHOT 的ja... 阅读全帖 |
|
|
|
G*******n 发帖数: 6889 | 36 修电脑对人家Senior Devops Engineer太小菜了
Jobs & Technology Group (#1 Job, Manager, HR, Software, Engineering &
Technology Group)
Jobs & Technology Group (#1 Job, Manager, HR, Software, Engineering &
Technology Group)
1,797,882 members
Join
Software + Services (SAAS)
Software + Services (SAAS)
10,000 members
Join
Information Security Community
Information Security Community
260,549 members
Join
The Economist Newspaper readers
The Economist Newspaper... 阅读全帖 |
|
d********w 发帖数: 363 | 37 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->... 阅读全帖 |
|
d********w 发帖数: 363 | 38 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->... 阅读全帖 |
|
d***u 发帖数: 5 | 39
补充一本: Hadoop in action
顺便多看一下www.cloudera.com,上面有hadoop的tutorial 和 Hadoop based
software package.
说句题外话,cloudera 这个公司吸引了很多搜索引擎和分布系统的牛人,比如 Lucene
, Solr 和 Hadoop 的部分核心开发人员都在这个公司,应该待遇不错,找工作可以考
虑下^_^
关于MapReduce,看一下google公司发布的文档比较好,很容易搜到,毕竟这是google
最先推出来的技术。
一起加油! |
|
m******d 发帖数: 414 | 40 hadoop的creater Doug Cutting在cloudera。试过他家的东西,真不觉得怎样。
CloudEra |
|
l*****t 发帖数: 2019 | 41 这个太一眼难尽了。而且也没看懂Cassandra vs Cloudera, 你说Cassandra vs HBase
or Datastax.vs Cloudera?
要通关,我觉得攻略是
1)看老paper:amazon dynamo, google bigtable 2002 acm paper, google dremel
paper
2)看网上评论,你的问题就是keywords
3)future hadoop:
a) YARN
b) all different angles to shift focus from offline to online/nearline.
i)Hive SQL enhancement, Tez, sting, phoenix
ii) impala, dremel (以及non-hadoop, spark/shark, mpp)
c) Hbase datacenter aware
d) 网上搜下 "Hortonworks objectives 2013"
e) Watch HadoopSummit 2013 vid... 阅读全帖 |
|
l*****t 发帖数: 2019 | 42 hadoop components : mapreduce,hdfs(copycat of google GFS or now colossus),
hbase(copycat of google.BigTable or spanner now), hive, pig, zookeeper,oozie
,flume,sqoop,hcat.etc
hadoop version: many v1 that's.0.x and YARN aka verson hadoop 2.0
hadoop vendor: apache, cloudera, mapr, hortonworks. arguably (who claims
support MapReduce) greenplum, datastax( Cassandra vendor that supports
MapReduce on CFS), Hadapt(Hadoop and SQL),heard couchdb,mongodb all supports
MapReduce now.
Hadoop new:
1) impala ... 阅读全帖 |
|
|
o******r 发帖数: 168 | 44 纯IT行业做码工做的产品服务其他行业的码工,甲方乙方的关系。
IT行业做码工,产品就是软件或者平台,所以对于编程技术要求很高。
金融行业做码工,辅助运营,使用的是IT行业的框架产品。
有朋友在金融行业干,使用cloudera公司的hadoop,因为不熟悉的缘故,
经常给cloudera开P1 ticket,P1 (priority)ticket是优先处理,对方的support应
该规定必须在5分钟内响应,联系到客户。
所以开了三个P1 ticket之后,技术支持带着哭腔,央求道,“以后能否别开P1,
开个P2也行,我也能睡个好觉”。据说有些公司有规定,一定时间内P1数量超过一定额
度,没有按照固定响应,直接开除fire。可见纯IT行业也不好混啊。。。
不知道其他行业如何? |
|
x*j 发帖数: 271 | 45 俺做bigdata5年多,这三家公司都研究过,简单说说供参考。
Cloudera成立早,有很多yahoo的老人在,骗了很多钱,目前以做service为主,比较领
先的是它的management tool,对hadoop的manage比其他的package要强。背后主要的支
持者是oracle和teradata,前段时间intel投资了。目前来看比较牛。他们自己搞了
impala,我的感觉有点不伦不类的。
Hortonworks是yahoo spinoff的,技术上来说,看看hadoop早年的code大概也知道是个
什么样水平。HDFS真心还不错,Mapreduce一般般了就。里面有很多以前做pig的人,目
前的重点则是hive。目前看没什么大优势。他家后台是微软,hadoop on windows的各
种改动基本上都是他们做的,软软给了很多钱。
Mapr这个东西,楼主先不要用google capital去误导别人。Mapr的CTO以前在google
GFS team干过很久。Google computing engine 最开始的时候也只支持MapR。MapR的后
台就是google。... 阅读全帖 |
|
m********e 发帖数: 63 | 46 终于在电脑上可以输中文了,可能有的人因为我前面英文的帖子太长,没有仔细看。我
再来解释一下吧。
MapR的分布式文件系统是自己做的,和Google没有关系。我们的CTO在加入Google之前
就已经是做文件系统的专家,在Google GFS组做了2年多就决定自己出来创业把自己对
文件系统的想法做成产品。因为HDFS有很多局限性,比如不支持实时读写等。因为早期
的Hadoop HDFS是那些检索公司做出来给自己的检索系统用的,只要读,不需要实时读
写。而现在的需求是要求能提供实时读写的分布式文件系统以支持大数据的分布式数据
库,用来取代传统的数据库集群。
MapR重写了HDFS以后,把Hadoop的功能提高到enterprise software的质量的要求,这
就是为什么它的付费用户在这些所有Hadoop vendor 中最多的原因。因为对于
enterprise的软件,那些用户看重的是产品的质量和服务。
虽然前面xmj做了一些几个公司的分析,但那毕竟是他个人的观点,并不一定是业界专
家的观点。这里有一篇文章对每个Hadoop vendor都做了介绍,并且比较全面和客观。
有兴趣可以读... 阅读全帖 |
|
a***n 发帖数: 623 | 47 月光你怎么还在JH。
我觉得xmj说的没错,cloudera是08年的,MapR是09年的,hortonwork是11年的,5年前
做big data的起码有cloudera和yahoo、google这几家了。他对这三家公司的介绍也很
有价值,起码和我了解的是一样的。
这里不是股版,喷人请有理有据。 |
|
x*j 发帖数: 271 | 48 俺做bigdata5年多,这三家公司都研究过,简单说说供参考。
Cloudera成立早,有很多yahoo的老人在,骗了很多钱,目前以做service为主,比较领
先的是它的management tool,对hadoop的manage比其他的package要强。背后主要的支
持者是oracle和teradata,前段时间intel投资了。目前来看比较牛。他们自己搞了
impala,我的感觉有点不伦不类的。
Hortonworks是yahoo spinoff的,技术上来说,看看hadoop早年的code大概也知道是个
什么样水平。HDFS真心还不错,Mapreduce一般般了就。里面有很多以前做pig的人,目
前的重点则是hive。目前看没什么大优势。他家后台是微软,hadoop on windows的各
种改动基本上都是他们做的,软软给了很多钱。
Mapr这个东西,楼主先不要用google capital去误导别人。Mapr的CTO以前在google
GFS team干过很久。Google computing engine 最开始的时候也只支持MapR。MapR的后
台就是google。... 阅读全帖 |
|
m********e 发帖数: 63 | 49 终于在电脑上可以输中文了,可能有的人因为我前面英文的帖子太长,没有仔细看。我
再来解释一下吧。
MapR的分布式文件系统是自己做的,和Google没有关系。我们的CTO在加入Google之前
就已经是做文件系统的专家,在Google GFS组做了2年多就决定自己出来创业把自己对
文件系统的想法做成产品。因为HDFS有很多局限性,比如不支持实时读写等。因为早期
的Hadoop HDFS是那些检索公司做出来给自己的检索系统用的,只要读,不需要实时读
写。而现在的需求是要求能提供实时读写的分布式文件系统以支持大数据的分布式数据
库,用来取代传统的数据库集群。
MapR重写了HDFS以后,把Hadoop的功能提高到enterprise software的质量的要求,这
就是为什么它的付费用户在这些所有Hadoop vendor 中最多的原因。因为对于
enterprise的软件,那些用户看重的是产品的质量和服务。
虽然前面xmj做了一些几个公司的分析,但那毕竟是他个人的观点,并不一定是业界专
家的观点。这里有一篇文章对每个Hadoop vendor都做了介绍,并且比较全面和客观。
有兴趣可以读... 阅读全帖 |
|
a***n 发帖数: 623 | 50 月光你怎么还在JH。
我觉得xmj说的没错,cloudera是08年的,MapR是09年的,hortonwork是11年的,5年前
做big data的起码有cloudera和yahoo、google这几家了。他对这三家公司的介绍也很
有价值,起码和我了解的是一样的。
这里不是股版,喷人请有理有据。 |
|