由买买提看人间百态

topics

全部话题 - 话题: hbase
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
z****e
发帖数: 54598
1
来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?
什么的benchmark?
六个nodes,如果数据量很小的话
强c和弱c是没有太大区别的
cassandra最好的一点就是不要求强c
而且可以tune,相比之下,hbase要做到这一点
就很苦逼
c*******9
发帖数: 9032
2
来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?
hbase之上有些SQL中间层如Phoenix,不知道好不好用。
w***g
发帖数: 5958
3
来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?
确实是这样。spark程序可以用yarn或者mesos调度,也可以啥都不用裸跑。
spark本身是链接hadoop库的,但背后不一定需要读写dfs://...,可以读写
本地数据,C*或者s3啥的。但是高性能读写大量数据我觉得最好的还是dfs。
因为输入数据往往远大于输出数据,所以输入数据最好也存在dfs上。
最终计算的结果直接写入C*或者s3啥的,可以省掉来回倒腾。
我手里的生产系统用的是yarn调度,因为反正要用hadoop。不过机器比较少,
也没啥调度可言,基本上一个app跑上去内存就用满了,都是独占模式。
我没用hadoop/spark读过C*或者s3。我怀疑C*的读写性能会远差于HDFS。
希望用过的同学过来说说。(上面我有帖子说C*性能比HBase好,那个context
不一样,是说当数据库用的性能)
f*******t
发帖数: 7549
4
来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?
hdfs是pipeline写入模式,三个node接近串行,性能不如现在主流的quorum。
hbase基于hdfs虽然有hadoop生态圈的加成,但也严重影响了性能,最重要的是安装难
度提高太多,一般人不愿意弄
J****R
发帖数: 373
5
来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?
hdfs 就算串行也没理由那么慢. 2M 行左右数据,size 大概200M,写进hbase居然要半
个小时,这个有点不像话了,单node都不应该这么慢。
刚才试了一下直接把数据文件put到hdfs, 也不过用了110 seconds。
p*****u
发帖数: 310
6
来自主题: Programming版 - 搞不懂为什么大牛说Hbase不如C*?
Hbase太expensive。一份data要存6个copy
n*****3
发帖数: 1584
7
来自主题: Programming版 - Hadoop/HBase/HDFS三驾马车过时了吗?
I think HBASE is about the same market share as C*, C* is rising though.
Hadoop/HDFS is mature, a lot of new tech will choose to live on top of them.
A*******e
发帖数: 2419
8
有一个任务,需要大量读HBase,处理后写到磁盘上。处理本身很简单。
现在是两个任务/进程,每个任务四个线程。想增加吞吐量,是应该加线程,还是加进
程?
f*********r
发帖数: 9
9
加线程和加进程应该都可以。不同的是,加线程会受限于host的带宽,加进程(假定多
加的进程可以分布在别的host)则受限于hbase的带宽。如果进程只能在一台机上跑,那
加线程和加进程没多大区别。
p*****2
发帖数: 21240
10
来自主题: Programming版 - 可能还得死磕Hbase

惨呀。我们公司的HBase让我用C*给干掉了。
J****R
发帖数: 373
11
来自主题: Programming版 - 可能还得死磕Hbase
是打算这么搞来着。还没来得及做benchmark, 那面的反对声音马上就来了,首先加上
spark后real time query未必会快,有可能反而会慢。而且spark 也可以加在hbase上
面。
t**r
发帖数: 3428
12
vertica如何,跟impala, hbase,比有什么异同?
J****R
发帖数: 373
13
来自主题: Programming版 - Hbase new column 存储问题
hbase里面不同时间加的new column cell是怎么存储的?
理论上cells in same row all stay together.各位高手有知道detail的吗?
w**z
发帖数: 8232
14
来自主题: Programming版 - Hbase new column 存储问题
No. You can't compact for every writes. It will kill your performance if you
do that.
Again, I am not so sure about HBase. In Cassandra, there are different
compaction strategies.
If the compactions don't happen often, the read performance will suffer
since the read will have to go through Mulitple SSTables.
f*******t
发帖数: 7549
15
来自主题: Programming版 - Hbase new column 存储问题
不同column family的数据是分开存储的。hbase文件夹结构是
table / column family / hfile
不同column (qualifier)都是堆在一起的。
rowkey + column family + qualifier + timestamp才是真正的key,对应一个value。
“cell in same row”里的row如果指rowkey的话,只要cell的column family不同,就
不会存在一起。
f*******t
发帖数: 7549
16
来自主题: Programming版 - Hbase new column 存储问题
楼主的问题都比较无厘头,建议先读一下基础知识:http://hbase.apache.org/apache_hbase_reference_guide.pdf
f*******t
发帖数: 7549
17
来自主题: Programming版 - Hbase new column 存储问题
只要持续写入,hbase就会不断做compaction,你为什么这么怕它???
另外你多大数据量啊,还用担心region split???一个cluster存几百T数据没问题,
你还担心啥
b**********5
发帖数: 7881
18
来自主题: JobHunting版 - MLGB 的
一个店面, 准备热热身的。 一个印度男经理, 看linkedin, 好像从印度工作然后
过来。。 我对印度口音还行, 但这个男的, 口音特别中, 死气无力的。。。 在那
里呻吟。。。
1) 上来问HBase, cassandra的区别。 然后我开始说一通architectural的区别。
HBase是master slave architecture啊, Master管着一群region server, partition
的infomation metatable都在master里面。 HBase需要HDFS啊, HBase的single point
failure不是因为masterserver,我们以前其实用zookeper来管二个HBase
masterserver啊。 HBase的single point failure 其实是因为HDFS single namenode
啊。。。 Cassandra其实就是像P2P一样, 一个consistent hash ring啊, 然后data
key的本身有partition key, partition key来决定放哪个... 阅读全帖
S**I
发帖数: 15689
19
来自主题: JobHunting版 - [合集] 收到G家拒信,发面经
☆─────────────────────────────────────☆
recursive (递归) 于 (Mon Apr 11 10:56:49 2011, 美东) 提到:
大半夜收到HR的thank you note。不用管什么NDA了
本人ECE fresh PhD,背景是电路/EDA,跟G业务基本没什么关系
同学内部推荐的,很简单的一次电面就给了onsite
题都不难,但是自己没把握好机会,出了一些小bug。
总的感觉,出错就是硬伤,宁可从最简单的算法写起,也不能出错。
电面:
1,Skip list, http://en.wikipedia.org/wiki/Skip_list
写code实现struct skip_list * find(struct skip_list *head, int value)
2,sorted array with repeated elements
for given element, find out its range.
e.g. A A B B B B B C C D D E F G, given B, the out... 阅读全帖
d****o
发帖数: 1055
20
来自主题: JobHunting版 - 详解知名网站的技术发展历程(zz)
对于大家复习design problem有帮助
互联网已经发展多年,其中不乏脱颖而出者,这些网站多数都已存在了接近10年或10
年以上,在如此长时间的发展过程中,除了业务上面临的挑战,在技术上也面临了很多
的挑战。我挑选了一些Alexa排名较前的网站(排名截止到2012年4月21 日),看看它们
在技术上是如何应对业务发展过程中的挑战的。
Google 目前Alexa排名第1。它诞生于1997年,当时是一个研究性项目,每个月
build一次索引,build出来的索引通过sharding(shard by doc)的方式分散到多台服务
器(Index Server)上,具体的网页数据同样通过sharding的方式分散到多台服务器(Doc
Server)上,当用户提交请求时,通过前端的一台服务器将请求提交给Index Server获
得打了分的倒排索引,然后从Doc Server提取具体的网页信息(例如网页标题、搜索关
键词匹配的片段信息等),最终展现给用户。
随着索引的网页增加,这个结构可通过增加Index Server以及Doc Server来存储索
引以及网页的数据,但仍然会面临其他... 阅读全帖
z****e
发帖数: 54598
21

oracle db的license什么用不起
是被插管吸血得还不够,就是因为利润太丰厚了
所以被盯上,然后几个阿三带着ppt过来忽悠各种产品
上workflow,上各种扯蛋得玩意,结果系统一天比一天难用
最后当年利润下滑,ceo引咎辞职,连同cio, hr的头几个一起滚蛋
我们底下干活的太清楚不过了,软件就是不能听这些阿三忽悠
都是骗子,还好当时core system是自己写的,所以保证core system不被忽悠
外围的那些系统后来全部砍掉,分公司全部卖掉,就专注地做core system
这样才算挺过来,没被插管吸血插死,这个有什么好争的
ibm websphere一个license可以卖¥32万,只能让一个cpu用一年
有几个公司这么大方能让人随便这样搞的?去ioe从本质上说就是钱的问题
都是这行的,我说的对不对,有几年经验的自然看得出来
至于你说得基于hadoop得数据库,什么意思?
hdfs是底层的file system,在此基础之上有hbase这一个数据库
而且还是cp系统,所以后来引入了ap系统的cassandra作为补充
你说基于hadoop的数据库,说实在话,我... 阅读全帖
z****e
发帖数: 54598
22

oracle db的license什么用不起
是被插管吸血得还不够,就是因为利润太丰厚了
所以被盯上,然后几个阿三带着ppt过来忽悠各种产品
上workflow,上各种扯蛋得玩意,结果系统一天比一天难用
最后当年利润下滑,ceo引咎辞职,连同cio, hr的头几个一起滚蛋
我们底下干活的太清楚不过了,软件就是不能听这些阿三忽悠
都是骗子,还好当时core system是自己写的,所以保证core system不被忽悠
外围的那些系统后来全部砍掉,分公司全部卖掉,就专注地做core system
这样才算挺过来,没被插管吸血插死,这个有什么好争的
ibm websphere一个license可以卖¥32万,只能让一个cpu用一年
有几个公司这么大方能让人随便这样搞的?去ioe从本质上说就是钱的问题
都是这行的,我说的对不对,有几年经验的自然看得出来
至于你说得基于hadoop得数据库,什么意思?
hdfs是底层的file system,在此基础之上有hbase这一个数据库
而且还是cp系统,所以后来引入了ap系统的cassandra作为补充
你说基于hadoop的数据库,说实在话,我... 阅读全帖

发帖数: 1
23
来自主题: JobHunting版 - Alibaba全球找华人技术牛人!!!
Alibaba全球找华人技术牛人!!!
11月底阿里巴巴集团基础架构事业群VP会带领技术团队奔赴美国硅谷做技术招聘,欢迎
各位同胞们联系我
以下重要紧急职位必要要求:PHD毕业至少3年,Master毕业至少五年以上工作经验,年
龄在70-85年出生为佳
我的联系邮a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="92763128a3aaa4a3a4a0a1a1a3a4a1d2a3a4a1bcf1fdff">[email protected]/* */ 微信:18616233163 QQ:2095226802
Base:杭州/硅谷圣马特奥职位(越资深越好)
基础架构事业群-资深网络研发专家 网络研发,网络管理,网络工具,系统
软件开发,分布式系统, SDN
基础架构事业群-Machine Learning资深专家 IDC智能运维、Data Scientist、
Machine Learning、PUE
基础架构事业群-资深平台业务架构师 IDC智... 阅读全帖
z****e
发帖数: 54598
24
来自主题: Programming版 - Scala的AKKA很惨淡
我觉得这篇文章讲得很不清楚,只是单纯滴比较
没有实战价值
不过看评价缺点还是很有启发的,跟我猜的差不多
主要问题就是
hadoop慢
我们用hadoop是因为没有选择
而且hbase存文件容量比较大,能放得多
但是并不代表我们不能自己动手做优化
实际上cap理论里面,hbase就牺牲了a
这个就意味着总是很慢,但是慢没有关系,可以优化
其中一个优化手段是参考传统db建view的方式
找一个db,做预处理查询,把结果存在某一个查询快的角落
比如内森用的elephonedb,db牺牲的是p,没有牺牲a,所以快
然后storm放到前端用来处理最近时间段的数据
persistence这个时候就不能再用hbase了,慢
所以上cassandra,我总是很喜欢cassandra
cassandra牺牲的是c,没有牺牲a,所以快
然后并发存取,并把历史数据存到hbase里面去
这样通过三个不同的数据存储方式hbase,db和cassandra
分别对应历史数据,历史数据视图和即时数据存储
就能解决hadoop慢的问题
绕了这么一大圈就是因为hadoop慢
storm帮忙做了不少事,但是如果换成akk... 阅读全帖
w**z
发帖数: 8232
25
来自主题: Programming版 - 二爷看过来。
没有仔细看过hbase, 当时做POC, 时间紧,没有选hbase,在Mongo, C* and Riak
里选。
后来去了C* 和 Hbase conf, 觉得hbase community support 更大,有FB。 而且和
Hadoop 绝配。但两个nosql很象,已经开始用C*,估计老板不会在花时间在HBase上了
,support, setup, 一大堆事,不关是写code
m***r
发帖数: 359
26
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-12
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-12/short.html
1) 【浅谈Hadoop YARN资源隔离机制】 by @开源力量
关键词:计算框架, Hadoop, YARN
【浅谈Hadoop YARN资源隔离机制】当谈及到资源时,我们通常指内存,CPU和IO三种资
源。默认情况下,YARN不会对任何资源进行隔离,当然,如果采用Java语言编写的程序
,则会使用JVM内置的隔离机制为内存资源进行隔离。 [1]
[1] http://www.osforce.cn/group/2/thread/1240?fr=weibo&mu=140910XRNWcD
2) 【Apache HBase高可用性的新阶段】 by @CSDN云计算
关键词:计算框架, 数据库, Hadoop, HBase
【实战丨Apache HBase高... 阅读全帖
G******i
发帖数: 5226
27
来自主题: JobHunting版 - [合集] 我的面经回馈本版
☆─────────────────────────────────────☆
DyaneWade (姐夫) 于 (Thu Dec 8 02:26:37 2011, 美东) 提到:
本人CS Fresh PhD,一般学校,专业机器学习.本人实在是不牛,受益于本版,在此攒人品.
申了Microsoft, Google, LinkedIn, Twitter,eBay,都拿到onsite.去湾区只有三
天,只好放弃T.G家开始说过了hiring committee,但拖到三周多后告诉我挂了.由于过于
自信,本以为会签了,导致没有申到今年的H1B.因此对G家充满怨念.拿到M,L,E的OFFER.
思量之后签了M,RSDEII.
先说我的感想:
1)别老想着做题,起决定作用的还是基本功,思维能力,和状态.我有些朋友横扫各大
公司的,他们都不屑于搜面试题来做.而且总有做不到的题,面试时候的发挥很重要;
2)尽管如此,尽量多的去做些题.重复率还是蛮高的;
3)找工作是不确定性蛮大的事情,保持好的心态,自信.
Twitter:
1) ... 阅读全帖
l*****t
发帖数: 2019
28
这个太一眼难尽了。而且也没看懂Cassandra vs Cloudera, 你说Cassandra vs HBase
or Datastax.vs Cloudera?
要通关,我觉得攻略是
1)看老paper:amazon dynamo, google bigtable 2002 acm paper, google dremel
paper
2)看网上评论,你的问题就是keywords
3)future hadoop:
a) YARN
b) all different angles to shift focus from offline to online/nearline.
i)Hive SQL enhancement, Tez, sting, phoenix
ii) impala, dremel (以及non-hadoop, spark/shark, mpp)
c) Hbase datacenter aware
d) 网上搜下 "Hortonworks objectives 2013"
e) Watch HadoopSummit 2013 vid... 阅读全帖
N*****8
发帖数: 253
29
来自主题: JobHunting版 - [转] 阿里巴巴招聘 (转载)
【 以下文字转载自 Returnee 讨论区 】
发信人: Nicam08 (Nicam), 信区: Returnee
标 题: [转] 阿里巴巴招聘
发信站: BBS 未名空间站 (Wed Nov 23 13:57:21 2016, 美东)
Alibaba全球找华人技术牛人!!!
11月底阿里巴巴集团基础架构事业群VP会带领技术团队奔赴美国硅谷做技术招聘,欢迎
各位同胞们联系我
以下重要紧急职位必要要求:PHD毕业至少3年,Master毕业至少五年以上工作经验,年
龄在70-85年出生为佳
我的联系邮a class="__cf_email__" href="/cdn-cgi/l/email-protection" data-cfemail="aa4e09109b929c9b9c9899999b9c99ea9b9c9984c9c5c7">[email protected]/* */ 微信:18616233163 QQ:2095226802
Base:杭州/硅谷圣马特奥职位
基础架构事业群-资深专家-kernel OS kernel,filesys... 阅读全帖
b********2
发帖数: 13
30
所有如下工作岗位都是基于上海。公司网站:WWW.Datageek.com.cn
All positions are located in Shanghai, China, and open to all levels of
experiences & skills. That's why salary for each position is open.
If you are suitable and interested in any of the following positions, please
write email to: [email protected]/* */ / [email protected]/* */
When writing to us, you must indicate which position you are interested in
or applying for.
--------------------------------------------------
公司简介
--------------------... 阅读全帖
z****e
发帖数: 54598
31
来自主题: Java版 - BIgData对job market的影响?
hbase还不够成熟,版本号连1都没上,也就是还没有正式版
用起来风险太大
fb用hbase是因为以前cassandra跟hadoop不怎么兼容
或者说不象hbase那样原生态,所以整合起来比较折腾
现在apache已经开始整合cassandra跟hadoop了
所以用cassandra并不是很坏的结果,而且cassandra单独用也瞒好的
hbase单独用就折腾
m***r
发帖数: 359
32
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-25
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-25/short.html
1) 【我为什么选择MongoDB】 by @IT技术博客大学习
关键词:数据库, MongoDB, NoSQL
【我为什么选择MongoDB】 大概在08年,那时候nosql的概念特别热,最早的那批开源
项目好多参考google bigtable来设计,我也关注过其中的几个,比如hypertable,
couchdb之类,阅读了一些相关的文档和... 详见: [1]
[1] http://blogread.cn/it/article/3662?f=wb
2) 【Apache HBase高可用性的新阶段】 by @LUPA开源社区
关键词:计算框架, 数据库, Hadoop, HBase
【Apache HBase高可用性的新阶段】Apache HBase... 阅读全帖
m***r
发帖数: 359
33
来自主题: DataSciences版 - 大数据日报 2015年2月楼
大数据日报 2015-02-26
@好东西传送门 出品, 过刊见
http://bd.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅大数据日报
更好看的HTML版
http://bd.memect.com/archive/2015-02-26/short.html
1) 【开启一个新的时代:Apache HBase 1.0】 by @ChinaHadoop
关键词:计算框架, 数据库, Hadoop, HBase, 代码
【开启一个新的时代:Apache HBase 1.0】由小象科技CTO翻译,[大红灯笼]热腾腾端
出来,[大红灯笼]供大家参考。点击: [1] [呵呵][呵呵][呵呵]
[1] https://github.com/chinahadoop/news/blob/master/hbase/release_1.0.0.md
2) 【Docker生态系统系列之二:容器化综述】 by @DockerOne
关键词:虚拟化, Docker, 容器
【Docker生态系统系列之二:容器化综述】本篇文章是介绍Doc... 阅读全帖
d********w
发帖数: 363
34
来自主题: JobHunting版 - hadoop面试和学习总结
你比较过cassandra和hbase么
我项目中用到hbase,但目前感觉hbase问题很多,
1. 非常吃内存,16G内存都不够
2. 在高并发下,region server 失去相应,不得不手工重启region server
现在也想调研cassandra的性能情况
d********w
发帖数: 363
35
来自主题: JobHunting版 - hadoop面试和学习总结
你比较过cassandra和hbase么
我项目中用到hbase,但目前感觉hbase问题很多,
1. 非常吃内存,16G内存都不够
2. 在高并发下,region server 失去相应,不得不手工重启region server
现在也想调研cassandra的性能情况
S**I
发帖数: 15689
36
来自主题: JobHunting版 - [合集] 问个facebook 面试题
☆─────────────────────────────────────☆
Bayesian1 (Jason) 于 (Tue Aug 30 00:32:06 2011, 美东) 提到:
Given an array A of positive integers. Convert it to a sorted array with
minimum cost. The only valid operation are:
1) Decrement with cost = 1
2) Delete an element completely from the array with cost = value of element
☆─────────────────────────────────────☆
chenpp (chenpp) 于 (Tue Aug 30 00:37:57 2011, 美东) 提到:
my 2 cents:
允许额外花费O(n)空间么。。。
允许的话就不停地减数组中所有元素的值,减一次计数器加1,遇到减到0的就删掉,把
当前计数器值放入新开的等大... 阅读全帖
b*******d
发帖数: 750
37
来自主题: JobHunting版 - 面试是fail掉一轮就全fail掉么?
是个start up,不说名字了,不太好。
题目并不是太难。服务器端接受用户的刷卡服务。
customer1 使用了card1 make了一个purchase
customer2 使用了card2 make了一个purchase
customer3 使用了card1 make了一个purchase
customer1 使用了card2 make了一个purchase
。。。
这是个graph,里面有customer node和card node,上边的客户1 2 3 都是related
customer (connected in the graph)。
设计一个类,query customer id,返回所有related customer;添加一个新的
purchase (就是一个新的customer+card pair),能很快的将其index了。
我的做法是:所有connected 的customer构成一个cluster,created一个cluster id,
Map> M1 表达 (clusterId,customers)。
... 阅读全帖
y****r
发帖数: 211
38
来自主题: JobHunting版 - Job opening for software engineer
有兴趣的跟我发站内信。比较适合5年以下工作经验的。
==========
Palo Alto or San Francisco, CA, United States
Full-Time
< Back to Jobvite 1 of 1 Job | Previous | Next | Back to Jobvite
The *** Data team is looking for engineers to build and improve big data
processing pipelines and search indexing and analytics on top of Apache
Hadoop and HBase. Our team works extensively with open source software on
big data, social graph, and machine learning problems. You will have the
opportunity to work with and contribute to vari... 阅读全帖
d**e
发帖数: 6098
39
☆─────────────────────────────────────☆
dongfeiwww (我为技术狂) 于 (Mon Mar 5 00:49:51 2012, 美东) 提到:
http://www.36kr.com/p/88194.html
有人在Quora问了这个问题:What startup could make me a millionaire in four
years if I got hired as an emplyee today?
Symbolic Analytics的创始人Brandon Smietana在下面做了很长的回答,内容很精彩,
不过请勿对号入座:
大多数创业公司的退出(exit),都是通过M&A(并购),而不是通过IPO(首次公开募股
),现在大多数的M&A价格都低于3000万美元,最典型的价格是1500万美元,现在我们
来假设一个最乐观的退出案例,从其中的数据中算出,我作为创始人和CEO,能够拿多
少钱;从而计算出,你,作为一个员工可能赚得的利益。
(一)
假定案例
1)我拿到1000万的投资。
2)投资人拥有公司50%的股权... 阅读全帖
h****e
发帖数: 928
40
来自主题: JobHunting版 - System design应该怎么总结?
如果职位明确说需要懂Hadoop,HBase的话,那应该是会问到具体的问题的。
至于学习Hadoop,HBase本身,对学习large system design当然是很有
帮助的。看的时候多问一下,它们试图要解决什么问题,为什么那些问题
很重要,它们是怎么解决的,和其它alternatives的比较它们的traeoff
在哪里等等。你这些思考的过程在面试的时候很可能面试者就是这样一步
一步grill你的。
事实上,你就是看看他们的online manual,在概念上都可以学到不少。
http://hbase.apache.org/book/book.html
c******a
发帖数: 789
41
来自主题: JobHunting版 - 一个F的大数据题
1 trillion messages, each has maximum 10 words. How would you build the
index table?
How many machines are needed on the cluster to store the index table?
找到一个用hbase解决的,但我没用过hbase,都不知道人在讲啥 http://www.slideshare.net/brizzzdotcom/facebook-messages-hbase/14
a*****a
发帖数: 46
42
来自主题: JobHunting版 - 一个F的大数据题
楼主能不能讲细一点儿?
index table怎么建取决于将来要怎么查询吧。如果是FB用户的message,应该是用关键
词查询,显示消息及用户名?关键词需要同时match用户名么?比如,搜Cook,需不需
要显示所有含Cook的消息以及所有叫Cook的人发的消息呢?还是只显示前者?
假设不需要match用户名。
Slide 14里说用hbase存,<(row) user id::(column) word::message id>
Slide 13里说hbase是按column分组存的,组内按user id、word、message id排序。那
么查的时候应该先用每个word查出column,还可以根据查询者的好友过滤掉不相干的
user的message,然后merge sorted list
刚开始学习hbase和reverse index,等大牛详解~~
a**********0
发帖数: 422
43
我只需要hbase 如果hbase自带zookeeper 我还需要手动设置zookeepr吗 我用hbase的
东西感觉没有用到zookeeper相关的东西啊
我的意思是zookeeper是不是自动配置 自动运行的呢 也就是说我们对habse进行存放
data不需要用户去bother zookeeper?
z*******3
发帖数: 13709
44
来自主题: JobHunting版 - 请教一些面试口水题
ft
这真不是三言两语就能说得清楚的,只能非常泛泛地说一下
远远不够,对方深入问下去,你还是需要自己平常多看看it动态,积累一下
http://hadoop.apache.org/
hadoop现在演变成一堆产品的集合
这里面有file system,有db,有data warehouse,有business intelligence
有编程framework,还有framework的加强版,还有可视化工具,etc.
对方既然对比的是传统db,那重点显然是hdfs, hbase和cassandra这三个上
hdfs是file system,hadoop的核心之一
file system对比一般db,最大区别就是文件结构不那么一致
一般db存数据时候都经过了预处理,所以结构很清晰,有schema
而hdfs的数据则是文件,结构非常自由,没有或者有非常少的schema
这是最大的区别,然后在hdfs基础之上,有hbase这个数据库
hbase是cp系统,一般db是ac系统,区别就是cap理论,另外一个cassandra是ap系统
除了cap,hadoop还有各种分布式算法,分布式算法尤其需... 阅读全帖
o**********e
发帖数: 18403
45
【 以下文字转载自 Programming 讨论区 】
发信人: goodbug (好虫), 信区: Programming
标 题: Pinterest陶涛:三个教训和三个发展选择
发信站: BBS 未名空间站 (Wed Sep 3 03:19:03 2014, 美东)
http://tech.huanqiu.com/per/2013-08/4307208_2.html
我们作为创业公司总结了一些经验和教训跟大家分享一下:
1、保持简单,这对创业公司来讲非常重要,一个简单的系统出错的可能性就很小
,出错以后解决问题的可能性就变得很大。保持简单我们认为对创业公司来说是非常关
键的问题。
2、我们认为一项技术的超级用户遇到的难度是远远大于普通用户的。我们知道大
家今天都在用一些开元软件,这些开元软件是逐步发展的过程,很多软件在早期并没有
经历过很大的压力测试,在一定的流量基础上他们都工作的非常少,但是超过一定流量
的话都有各种各样的问题。如果你作为超级用户,你可能接触到的问题是前人完全没有
遇到的,你很难在社区里得到任何求助,需要自己读它的代码,去看是不是我能解决,
如果解决不了的话... 阅读全帖
o**********e
发帖数: 18403
46
【 以下文字转载自 Programming 讨论区 】
发信人: goodbug (好虫), 信区: Programming
标 题: Pinterest陶涛:三个教训和三个发展选择
发信站: BBS 未名空间站 (Wed Sep 3 03:19:03 2014, 美东)
http://tech.huanqiu.com/per/2013-08/4307208_2.html
我们作为创业公司总结了一些经验和教训跟大家分享一下:
1、保持简单,这对创业公司来讲非常重要,一个简单的系统出错的可能性就很小
,出错以后解决问题的可能性就变得很大。保持简单我们认为对创业公司来说是非常关
键的问题。
2、我们认为一项技术的超级用户遇到的难度是远远大于普通用户的。我们知道大
家今天都在用一些开元软件,这些开元软件是逐步发展的过程,很多软件在早期并没有
经历过很大的压力测试,在一定的流量基础上他们都工作的非常少,但是超过一定流量
的话都有各种各样的问题。如果你作为超级用户,你可能接触到的问题是前人完全没有
遇到的,你很难在社区里得到任何求助,需要自己读它的代码,去看是不是我能解决,
如果解决不了的话... 阅读全帖
b**********5
发帖数: 7881
47
怎么存, 就是存在cassandra或者hbase里啊。 hbase、cassandra都是帮你partition
好了, scale好了。 你可以谈谈hbase, cassandra的architecture。 real time
更新就是lookup, overwrite, insert到你这个nosql table里。。。
a*********i
发帖数: 86
48
我是楼主. 我想声明前面的回帖里没有使用马甲.
Poset你好. 既然你费了那么多笔墨来描述面试过程, 我想我也应该客观的再多说几句.
你今天是临时帮另一个面试官来救场的. 这样在开场寒暄的时候. 我其实不知道你是谁
. 我一直以为你是印度人, 原因有两个. 1. 你们L家的infra组特别多印度人. 我两轮
电话面试一共应付了三个印度人. 2. 你的语气特别严肃, 给我的感觉不是在interview
而是在interrogate. 你觉得我的态度不好, 你是不是可以中肯说一句, 我在介绍自己
背景和项目的时候一直都是比较平和的. 而你的语气是否有点太poker face?
直到打开Collabedit, 我看到你的名字才意识到你是中国人. 说实话这时候我有些不高
兴, 心想有必要这么咄咄逼人吗?
题目是事先paste在上面的. 你介绍了一下这个class, 然后就让我实现abstract class
. 但这个题目太过抽象, 而且感觉是谁拍脑袋想出来的, 非常不规范. 我举几个例子
fillBufferFromFile(); // Reads the buffer from file... 阅读全帖
b**********5
发帖数: 7881
49
来自主题: JobHunting版 - 领英 昂赛 已挂
这个题目, 就是cassandra和hbase的设计。 memtable, memfile, 要走cassadra
的路, 就是consistent hashing of the partition key, 要走hbase的路, 就是
hbase master帮你meta table里面存partition的info, 好像amazon的dynamo也是这么
用的?

发帖数: 1
50
我上个月中旬才开始找工作,到现在投了不到100个的样子吧。
QUALIFICATIONS
 Hands-on experience in full-stack development
 Strong knowledge of object-oriented programming and distributed system
 Extensive development experience in Linux enviornment
 Team player, self-motivated and excellent communication skills
 Critical thinking, hardworking and a fast learner
SKILLS
 Languages: Java, C, PHP, Shell Script, SQL, Scala, JavaScript, HTML, CSS
 Tools: Eclipse, Maven, Subversion, Junit, Camel, TibcoEMS, Hadoop, HBase,
Spa... 阅读全帖
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)