第10页 - 关于hbase的讨论汇总 - 话题女王

s*******y
发帖数: 52

来自主题: JobHunting版 - 工作机会 data scientist@experian datalab, San Diego

我们主要做predictive modeling，整个datalab发展的很好，组里气氛也很好，很多强
人，大多数是phd, 待遇在
sd很不错，最好是local或者距离近一些(LA) 的candidates，或者如果你很强,而且真
想到San
Diego来，也可以看下。可以站内给我发信，请简单介绍自己，我会给你我的邮箱
，不错的简历我会forward给manager。我不是hr，所
以不太好把邮箱直接留在这，请见谅。
理工科的phd都可以申请，具体专业没有限制，需要你熟悉machine learning和统计，
人聪明，编程好，数学好。很强的master也可以考虑申请。
Scientist - Predictive Modeling at Experian North America R&D Data Lab
Experian DataLabs is a R&D unit at Experian formed with the desire to work
in collaboration with Experian’s business units to enhance rel... 阅读全帖

h*****a
发帖数: 1718

来自主题: JobHunting版 - Pinterest Software Engineer position for Data/Hadoop

Pinterest Data组有一个opening，希望能有合适的老中同学加入。需要对Hadoop和相
关的technology比较了解。最好至少有4年或以上的工作经验。如果感兴趣请发简历给
[email protected]
/* */
下面是job description，工作还没有在网上post出来。要求的技能比较specialized，
所以不符合的同学可能就不能refer了，抱歉先。
Pinterest Data Engineering Team is hiring Infrastructure Software Engineer.
The ideal candidate will be familiar with Hadoop, Hive, HBase, Yarn, Tez and
Spark. This position is full-time and based in our headquarter - San
Francisco, CA.
requirements:
4+ years Java programing and performance tun... 阅读全帖

w***t
发帖数: 1474

来自主题: JobHunting版 - 刚刚和L的同胞电面完, 觉得是个很好的故事

一道coding题居然还拿hbase来当提示。这是在黑你还是帮你。我建议面试官还是主动
请缨去面烙印比较好，保证面一个挂一个。

句.
interview
class

b**********5
发帖数: 7881

来自主题: JobHunting版 - G里面搞big data的是不是出来没市场？

晕倒啊。。。 hadoop， hbase还不是产于google的map reduce和big table的paper？

s******c
发帖数: 1920

来自主题: JobHunting版 - G里面搞big data的是不是出来没市场？

难道他们这么写要招hbase的人结果看到一个Bigtable组的就觉得不对口然后不要了？
楼主知道spanner组的人要跳出来是什么价吗

c*****n
发帖数: 95

来自主题: JobHunting版 - F店面+onsite 面经

Hbase in Action
Chapter 8 有详解
http://vdisk.weibo.com/s/BNv7Gwk2lEpsN

b**********5
发帖数: 7881

来自主题: JobHunting版 - 报F和G的offer，分享面经和准备经验

我是正牌技校出来的。 HBase， memcached， storm，都搞过，都调过，干活卖力
，晚上周末都能帮你干。。。结果呢，一个工作都找不到。。。
印度大妈，生物转学，中国二奶，都能干的活。。。

b**********5
发帖数: 7881

来自主题: JobHunting版 - 报F和G的offer，分享面经和准备经验

h*********p
发帖数: 13

来自主题: JobHunting版 - 请问怎样才能很好的学习hadoop (转载)

个人建议一开始不要用Cloudera和Hortonworks的VM，这都是配置好的环境，不利于了
解Hadoop的底层构造。
从Apache Hadoop开始，手动安Zookeeper，Hive，Pig，Sqoop，Oozie，Hue等组件。
这样你就对最基本的administration和HDFS/YARN架构有个粗浅了解。
然后去看Definitive Guide那本书，了解基本的MapReduce，不用看太细，现在没人直
接写这个
这样你就有了理解Hive和Pig的基础
剩下的HBase，Zookeeper，Sqoop根据需要看。

b*****n
发帖数: 618

来自主题: JobHunting版 - 回报本版，前段时间骑驴找马FGU等公司offer面经总结【已更新FGU】

这个题目可以无限可能的答，根据不同use case实现可以有很多种。
In general的话，看看现有的几个比较成熟的就可以了呀
HBase，Cassandra，DynamoDB

b*****n
发帖数: 618

来自主题: JobHunting版 - 回报本版，前段时间骑驴找马FGU等公司offer面经总结【已更新FGU】

2.可以用segment tree，
不过我用的是跟你一样的方法，然后用同样的方法做system。
query说白了就是个binary search，做一个view只存merge过的情况，写的时候开销会
比较大，不过可以仿照HBase，memory里面存的那部分可以一定的频率跟disk上做merge
，但是不需要每次写的时候都做。
onsite1. 中心思想就是不能用常用的double linked list + hashamp来搞定，原因是
concurrent的情况下必须锁整个linked list，这个throughput会非常差，解决办法是
延迟处理写linked list，有不少钟solution，但是最简单的一种是不用linked list，
maintain hashmap>，get的时候只更新
timestamp，set的时候才真正做从hashmap里面删除的操作。
onsite2.
主要就是每个station如果跟central断了需要各自记录各自的刷卡情况，然后等到连上
central之后再跑一个r... 阅读全帖

b*****n
发帖数: 618

来自主题: JobHunting版 - beanbun 大牛给讲讲设计题你怎么回答的吧？

没有过人之处，另外我不是大牛，这个版上藏龙卧虎。
distributed kv store和web crawler是system design里面最基本的题目吧，
看看现在比较流行的几个framework就可以了，比如HBase，Cassandra。
web crawler其实看考什么细节，每个人问的东西会不一样，design的题目其实是你既
要知道可能的问题是什么，还要知道怎么解决。。
比如web crawler IO会是问题，因为从网络上上下载网页会很慢，怎么能尽量不让IO
block

b**********5
发帖数: 7881

来自主题: JobHunting版 - beanbun 大牛给讲讲设计题你怎么回答的吧？

哎，看了这答案，觉得自己差距啊。。。现在面试，光刷题还不够。。还真要知道
这种memcache， hbase， cassandra的implementation，我自己刷题，还刷不好。。。

b*****n
发帖数: 618

来自主题: JobHunting版 - 准备面试篇，无干货

首先，无干货，可略过。
其次，我的经历不一定对所有人适用，也不是说我这么做就是对的，我工作时间也不长
所以有些问题看的也肤浅，主要目的是抛砖，一不小心又码字码多了，有耐心的同学可
以看看，欢迎指正和建议。
＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
＃＃＃
再说一下我的背景，既然很多人感兴趣，但是再细节就没有了。。
北美cs top25水校ms不到两年
之前在一只湾区的三哥驴（非L），版上已经有人猜出来了
做的东西还算可以，大数据的infra
＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
＃＃＃
除了刷题之外的准备。。
真正开始准备找工作是半年之前，我相信我在的驴比版上大部分公司都忙，所以开始的
时候进度比较慢，最开始的时候并没有主要刷题，而是列了一些我觉得必须要了解到一
定程度的system和framework来学习，我花了大概三个月时间来看一些paper，
opensource project的文档，presentation，source code和engineering blog。因为
工作中都在用，所以其实没有非... 阅读全帖

b*****n
发帖数: 618

来自主题: JobHunting版 - 准备面试篇，无干货

那位大牛貌似把原帖删了，但是我有备份的内容，透露出来应该不会有问题吧。。
2) design
解这种题是个*交流*的过程，或者说是给出方案然后获取反馈的不断循环的过程。
一般的流程：
首先你要问清楚requirement；
然后可以讲一下high level architecture，就是分成哪几个component，互相之间如果
interact，在白板上画一画；
之后面试官可能会让你深入某个component detail讨论；
也有可能变换requirement让你重新设计
另外，f家还喜欢让你估算机器之类的，做一些back-of-envelopme calculation。所以
最好对一些计算机相关的基本常数，fb的用户量等等有个大概的了解。
准备的时候建议看看fb的design高频题。一方面有可能面试的时候刚好碰到这几个
topic，另一方面其实很多design都是相通的。
之前有个帖子讲这个，原帖已经被删了，这儿有个备份http://blog.csdn.net/sigh1988/article/details/9790337
另外补充一点我收集的材料
a) 首先你可以从整体... 阅读全帖

l*******n
发帖数: 53

来自主题: JobHunting版 - 招聘Big Data Cassandra Senior Engineer - 芝加哥金融公司

我们公司从事期权交易，要做一个全新的期权交易系统，需要有Strong Cassandra 经
验的， HBased 后者类似的也可以。Java/SQL are preferred.
可以办身份，工资13万到15万。
Excellent working environment and benefits.
If interested, can email [email protected]
/* */
Thanks.

s******x
发帖数: 417

来自主题: JobHunting版 - F onsite 面经

不是文章，而是一本书，叫做HBase in Action，第八章还是第几章，专门有讲这个。
【内心独白】我这算是为马上要到来的FB面试攒人品了吧。。。。

S*******r
发帖数: 14

来自主题: JobHunting版 - Uber总部Big Data / 大数据组急招engineers

我在Uber Data Infrastructure组做hiring manager，现在开始为下半年招人，
backend engineer, full stack engineer, DevOps都要，名额充足。只要有Hadoop/
Kafka/Samza/Storm/Spark/Memsql/Riak/Hbase/Vertica相关经验，或者类似的系统（
例如狗家的码工）的同学都欢迎投。
工作地点在总部San Francisco, Uber支持H1B和Greencard (EB1-B（符合条件者）和
EB2都可）
版上的同学如果有兴趣，请投简历到 [email protected]
/* */，这个email我亲自查
看，保证每个简历我都会看一遍。合适者立即电面。

G*****m
发帖数: 5395

来自主题: JobHunting版 - Uber总部Big Data / 大数据组急招engineers

大牛能说说这些狗家对应的都是啥吗？
Hadoop/Kafka/Samza/Storm/Spark/Memsql/Riak/Hbase/Vertica
hadoop是mapreduce？
其他的呢？

S*******r
发帖数: 14

来自主题: JobHunting版 - Uber总部Big Data / 大数据组急招engineers

同问！
Riak/Hbase对应的是Big table

e********3
发帖数: 229

来自主题: JobHunting版 - Uber总部Big Data / 大数据组急招engineers

就会hadoop. hbase/kafka/storm学过但是工作不用...也写不到简历上...可以投贵组
backend职位么?

b**********5
发帖数: 7881

来自主题: JobHunting版 - Uber总部Big Data / 大数据组急招engineers

我就知道hadoop， kafka， storm， hbase， spark知道是干嘛。。。没用过

p****w
发帖数: 90

来自主题: JobHunting版 - Uber总部Big Data / 大数据组急招engineers

zan nn【在 Starpower (喵)的大作中提到：】n：n：我在Uber Data Infrastructure
组做hiring manager，现在开始为下半年招人，n：backend engineer, full stack
engineer, DevOps都要，名额充足。只要有Hadoop/n：Kafka/Samza/Storm/Spark/
Memsql/Riak/Hbase/Vertica相关经验，或者类似的系统（n：例如狗家的码工）的同学
都欢迎投。n：n：工作地点在总部San Francisco, Uber支持H1B和Greencard (EB1-B（
符合条件者）和n……nn--n[发自未名空间Android客户端]

b**********5
发帖数: 7881

来自主题: JobHunting版 - 请问一下 Walmart lab 现在是什么级别的公司了？

uhh,it's not just porting .net to linux..
it's about open sourcing .net, i mean come on, u can't even step into the
source code for C# String class in visual studio...
and how about give me a real DI injection framework??!
and because of closed source, there's not as many existing libraries that u
can use in C# as in java...
and look at azure platform.. they just end up porting apache storm and
apache spark and hbase... MS creativity and productivity are DEAD!

E****h
发帖数: 41

来自主题: JobHunting版 - Huami华米(小米手环)湾区招软件工程师，和intern

Title: Senior Cloud and Big Data Engineer
Location: Mountain View, CA
We are looking for experienced engineer with cloud and big data background
to join the team, to define and build the global cloud infrastructure and
big data platform. You will have opportunities to use cutting edge
technologies to solve the most challenging topics. This is an open, dynamic,
and fast paced working environment.
Responsibilities:
• Identity key requirements, and come with the best solution to
address their... 阅读全帖

j*********g
发帖数: 5

来自主题: JobHunting版 - 提供Yahoo!内推

长期提供Yahoo内推，主要面向大规模数据分析和机器学习，之前有无工作经验均可。
－有一定的Hadoop M/R知识，了解基本的Pig/Hive/Hbase/Oozie命令
－有一定的机器学习算法背景，了解常用的机器学习算法
－至少熟悉一门script语言，最好是python/perl/ruby之一
－有一定的算法基础，熟悉Java or C++
－ cs相关专业 (cs/ee)
－懂Scala更好，不懂也没关系
合适的简历会直接送给HM,可以节省中间recruiter进行接触的时间。短时间内就会有下
一步消息。
简历请发送到[email protected]
/* */我每天都会check邮箱。

l******n
发帖数: 648

来自主题: JobHunting版 - 老年马工赶快去 fb

现在FB到底是Cassandra还是HBASE的天下？

s********l
发帖数: 998

来自主题: JobHunting版 - 老年马工赶快去 fb

HBase
他们自己好像都不用cassandra了~

f*******t
发帖数: 7549

来自主题: JobHunting版 - 老年马工赶快去 fb

cassandra早就没人用；hbase作为替代品也不行了，目前用它的内部组都在往别的地方
迁移，比如zippydb

z****e
发帖数: 54598

来自主题: JobHunting版 - 老年马工赶快去 fb

这不是什么好迹象
cassandra毕竟是自己build from scratch
如果能成功，说明程序猴有造轮子的水平，属于大牛，可遇不可求
但是做失败了，说明水平达不到，也可以理解
毕竟不是阿猫阿狗都有造轮子实力的
那就用开源吧，没有造轮子的实力，有用开源轮子的实力
也不错，netflix就用了不少开源轮子，可惜hbase也用不好
现在开始转向enterprise products
zippydb就是enterprise products，是enterprise redis
后面一旦lockin，马上就是被插管吸血的节奏
搞不好离裁员不远了，股票逢高可以出一点了

b**********5
发帖数: 7881

来自主题: JobHunting版 - 老年马工赶快去 fb

redis是inmemory cache，和cassandra、hbase不一样吧，要比，也要redis，
memcache比啊。。

z****e
发帖数: 54598

来自主题: JobHunting版 - 老年马工赶快去 fb

zippydb是有版权的redis
类似couchbase vs couchdb
无论什么时候，用这些有版权的软件都是很容易的
实在不懂，掏钱请consultant过来问怎么搞
然后一堆疼校毕业的mba就西装革履地过来解释ppt了
但是这个要钱啊，所以一般有技术的企业都尽量自己搞
其实这里说了三个产品，职能都不是完全替代的
cassandra是ap系统
hbase是cp系统，互相之间也没有很大重合
redis用做cache比较多，另外两个用作persistenc比较多
这么混乱也说明程序猴对这些东西不太懂
牛肉姐你说像不像雾里看花？

s********l
发帖数: 998

来自主题: JobHunting版 - 老年马工赶快去 fb

大牛这是说
如果去fb 熟读hbase 工作上也用不上了？

f*******t
发帖数: 7549

来自主题: JobHunting版 - 老年马工赶快去 fb

熟读hbase是什么意思？

f*******t
发帖数: 7549

来自主题: JobHunting版 - 老年马工赶快去 fb

他狗屁不懂，道听途说点东西就幻想着被迫害了。
别的不说，fb messenger里的消息我有绝对发言权，因为聊天记录保存在hbase里。自
己选择删除的消息，最多30天内就没了。为什么要30天？因为我们一个月运行一次
major compaction，仅此而已。
当然有人会说NSA啥的，被它盯上你跑火星上也没用啊。

..

s********l
发帖数: 998

来自主题: JobHunting版 - 老年马工赶快去 fb

就是多多学习hbase啊~

z****e
发帖数: 54598

来自主题: JobHunting版 - 芒果DB和沙发DB

这两个就像cassandra vs hbase一样
经常被人拿来对比，可以有很多口水战
google下很多，enjoy

b**********5
发帖数: 7881

来自主题: JobHunting版 - which one to take, yahoo sde vs google set?

老兄，这也要看组吧。。。同样吗code，如果g家天天吗点sql的code， yhoo吗
hbase storm 的code，不是一个级别的

b**********5
发帖数: 7881

来自主题: JobHunting版 - cassandra 比hbase 流行

tech world有时也真是他妈的傻逼

z****e
发帖数: 54598

来自主题: JobHunting版 - cassandra 比hbase 流行

因为ap可以tune成cp

f*******t
发帖数: 7549

来自主题: JobHunting版 - cassandra 比hbase 流行

未来是ssd的天下，这两个都已经不hot了

w**z
发帖数: 8232

来自主题: JobHunting版 - cassandra 比hbase 流行

哪个hot? Cassandra works great with ssd.

p*u
发帖数: 2454

来自主题: JobHunting版 - cassandra 比hbase 流行

guess he'd say rocksdb...

p*u
发帖数: 2454

来自主题: JobHunting版 - cassandra 比hbase 流行

so what's hot now?

b**********5
发帖数: 7881

来自主题: JobHunting版 - 领英昂赛已挂

我怎么觉得就是介绍一下HBase和cassandra的architecture，怎么用memtable，然后
memtable满了以后，就放到memfile里

m******3
发帖数: 346

来自主题: JobHunting版 - 领英昂赛已挂

我都没具体用过这些，不过就我看过的一些资料，amazon的dynamo是一个key value
store, google的big table (hbase是开源版本)更象是一个database,big table是一
个column store的database. bigtable有一个controller node一样的东西，主要存一
些metadata,然后data存在不同的datanode上，当用户需要读写的时候，先从这个
controller node知道要存取的data所在的data node,然后直接和这个data node交互进
行读写。 dynamo是一个去中心化的设计，没有一个这个controller node一样的东西。
cassandra应该是dynamo+bigtable, 去中心化设计，而且是一个column store的
database, 比key-value store应用的范围应该广泛一些吧

b**********5
发帖数: 7881

来自主题: JobHunting版 - IT公司严重两极分化

depends on the group in that company.. big companies have ur git, jenkins
cassandra, hbase all setup, basically they have all these devops and tools
engineers, so software devs are relatively easier that way
small companies, u probably have to do everything

r******y
发帖数: 21

来自主题: JobHunting版 - Cloudera 面经（电面＋ onsite）

这是楼主第二次onsite他家，希望这次能有好结果吧。
面的组是内部维护hadoop和数据的组。
第一次电面，hiring manager，纯聊天，简历。谈得还不错。于是就有了接下来的下一
步。
第二次电面，依然是问简历，相关工作经历。主要问了问对开源项目的理解，尤其是他
家的impala。还有avro, thrift, nifi, hbase也都问了一些。
下一步是做了个oa，codility的oa，不难，三题，第三题时间不够，第二题有个小bug
，修了以后就提交了。
接下来是onsite，每轮一个小时。
onsite第一面，是个很资深的engineer，还是详细问简历，之前做的project的
architecture，要在白板上画出来。最后题问题的时候问cloudera在这方面也是不是这
样处理的，对方说是很相似的设计。
onsite第二面，大组的manager。详细聊聊hdfs，以及实时data ingestion进hdfs这方
面的设计。主要是考察系统设计以及对开源项目的了解。
onsite第三面，一个刚从ops转到dev的engineer。主要问linux的方方面面，我坦承... 阅读全帖

b**********5
发帖数: 7881

来自主题: JobHunting版 - MLGB 的

小姐啊， mapreduce的input哪里来？
是hdfs file么？一般来说， keyvalue是一个个进到你的system里来。比如你的
sytem前面有个webservice，然后client可以call你的service，给你keyvalue，你
直接写到HDFSfile里？一般都是写到database里，然后高兴怎么算就怎么算。
HBase的rowcount本来就是个mapreduce function

nn

z****e
发帖数: 54598

来自主题: JobHunting版 - MLGB 的

partition
point
namenode
data
大姐您这个学习有问题啊
你不管学什么，首先要明白为什么学
你用一个软件，你总得想明白为啥用吧？
nosql那么多，为什么用这个不用那个
这个问题你没想过？
我记得cap区别这个你上次感慨的时候
包括我在内，都有不少人告诉了你
说c*是ap，可以tune成cp，所以hbase没戏
这个看了之后，要回答阿三的问题轻而易举
这么重要的区别点不谈，上来谈细节？
细节who care？
错一点没关系嘛，工作中有ide帮忙嘛
第二个问题，follow up也不对啊
你都用了hashcode了
如果memory放不下，persistence嘛
持久化嘛，根据hashcode前几位建folder嘛
然后分开放嘛，merge个p啊
然后用hashmap的实现，判断碰撞嘛
这是如果只存unique的情况
如果是全部都存，用map reduce
不过这个map reduce好简单的说
就是一个多线程/进程而已，这种互相之间无依赖的数据
并发做起来太傻瓜了点
感觉老中除了背题啥都不会

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天