d********w 发帖数: 363 | 1 随着大数据的盛行,Hadoop也流行起来。我面过很多hadoop相关的公司,包括一线公司
(hadoop就是公司主要产品)如cloudera, hortonworks, mapr, teradata, greenplum,
二线的(使用hadoop):apple, expedia,comScore. 当然还有很多公司facebook,
twitter, baidu, 感觉这块还是机会挺多的,我就把我知道的一些给大家分享一下。
书籍和paper
: 里面内容非常好,既有高屋建瓴,又有微观把握,
比如mapreduce各个子阶段,经常问道join在里面也有代码实现,
google的三量马车,GFS, MapReduce, BigTable
入门:
知道MapReduce大致流程,map, shuffle, reduce
知道combiner, partition作用,设置compression
搭建hadoop集群,master/slave 都运行那些服务
HDFS,replica如何定位
版本0.20.2->0.20.203->... 阅读全帖 |
|
y**********u 发帖数: 6366 | 2 GFS
6.1 Micro-benchmarks
We measured performance on a GFS cluster consisting
of one master, two master replicas, 16 chunkservers, and
16 clients. Note that this con guration was set up for ease
of testing. Typical clusters have hundreds of chunkservers
and hundreds of clients.
All the machines are con gured with dual 1.4 GHz PIII
processors, 2 GB of memory, two 80 GB 5400 rpm disks, and
a 100 Mbps full-duplex Ethernet connection to an HP 2524
switch. All 19 GFS server machines are connected to... 阅读全帖 |
|
k**********g 发帖数: 989 | 3 In this question, it seems "random access" means O(1) access given the index
of the item (consecutive numbers assigned to each item, from 0 to N-1).
Hash table is an array of pairs between hash values and content. If you know
either (1) the hash value of your item, or (2) a "replica item" from which
you can recalculate the hash value, then you can access that item in O(1).
But a Hash table (a basic one) doesn't assign any item index to items, nor
does it remember it.
Thinking of them as maps wit... 阅读全帖 |
|
w**********2 发帖数: 20 | 4 http://www.mitbbs.com/article_t/JobHunting/32134627.html
large scale 方面
我google 的看了 mapreduce, gfs, bigTable, Spanner, chubby. google 的东西不太
好懂,而且没有源码可以参考。我觉得除了MapReduce 和 GFS 外,其他的过一遍就差
不多了。
facebook 的看了 cassandra, 这个有源码可以看,但是好像 很多地方和paper上面已
经不一样了。
yahoo 的看了 zookeeper,
Amazon 的看了 Dynamo, 我感觉这个最好,paper 比较好懂
所有的paper都是讲large scale 设计中的几个重要问题,
route(consistent hashing 还是B+ tree 类似的lookup table),
consistency, replica 的策略,
failure detection 和应对,
如果做预处理提高读取效率,
master election 策略,
nodes communication ... 阅读全帖 |
|
c*****a 发帖数: 95 | 5 server那题大家都怎么想的
要是所有人邮件都全世界replica好像也不大现实。。。 |
|
n*******w 发帖数: 687 | 6 好像是GFS实现的吧。
因为GFS会有多个replica,每次都去最近的服务器取。 |
|
n*********n 发帖数: 580 | 7 回馈下本版,长期潜水得到了很多帮助。
算法两题,一个是leetcode原题,判断两个tree node的lowest common ancestor.
另一个是directed graph, 代表work flows, 打印dependency sequence.
1->2->3
4->5《 (两个分别指向3,8的箭头)
6->7->8
task 3必须在1245都完成后才出现,task 8必须在4567都完成才出现。
sequence12453678是个解。
基本靠提示做的。3和8只有进来的edges, 当作root, 分别做post order tree
traversal
(不一定binary tree). 结果合并并且避免重复就可以了。
OO design题主要针对scalability。搞熟stateless, stateful conversation的差别,
partition, replica各自的好处就差不多了。我尽量把自己知道的知识都表达出来,只
要沾边的。比如,这个系统用name value database比sql更好。Optimistic lock和
pes... 阅读全帖 |
|
f******h 发帖数: 45 | 8 也找工作了一段时间了,从版上学了很多,上周G家面完了,求个bless。
之前的一些都挂了,还在继续找其他的。等定下来之后一定发面经回报本版。
谢谢大家啦!!
1. http://www.mitbbs.com/article_t/JobHunting/32005597.html
1) Implement a simple calculator (+,-,*,/);
2) Implement "+1" for a large integer;
3) How to match Ads to users;
4) How to extract useful information from a forum webpage (list all
kinds of useful signal you can think of)
5) How to detect the duplicate HTML pages (large scale);
6) Find all the paths between two places on Google map;
7)... 阅读全帖 |
|
z****e 发帖数: 54598 | 9 干脆就不要垮region存就是solution了
美国数据consistent到欧洲去有啥意义
欧洲要用,那就等欧洲那边有client登陆或者有人share给了欧洲的用户之后
再通知美国这边consistent到那边去
meta data做全球consistent还不是一样的慢?
都eventually consistent还需要做globally consistent么?
所有美国欧洲的数据,都consistent到大洋洲亚洲?没有意义
等亚洲大洋洲有人登陆了再copy过去就好了
绝大多数都不会有这种垮洲处理的问题
而且都eventually consistent了,跟gossip没啥本质区别
那既然是ap系统,scale out就好办了
最需要解决的就是如何通过本地的replica来防止当前处理的node挂掉
这在分布式算法里面有不少方法解决
光看阿三的ppt蹦点产品名词是学不会原理的
persistence用什么,其实无所谓,有什么用什么
原理都是相通的,换个名字换点api而已
而且google spanner这种是有版权的,升级时候api不兼容旧的api
到时候就麻烦了,这种事... 阅读全帖 |
|
z*******3 发帖数: 13709 | 10 你光说可以这样做,效率高,那这像是文科生说的
人家肯定不买帐,而且严格说来还是有点问题
传统db一样可以做到分布式
而且db查起来还更快,因为db的数据本身更为工整,index也多
integration做得好的话,找起来快多了,但是一般db写起来消耗资源比较多
而且db里面有大量用户定义的transaction,容灾处理机制write ahead log这些
据说这些东西占去了日常90%的工作,这样做的结果就是一般db要错,数据要丢失
不太容易,所以db中的数据都非常精准
但是代价就是写起来消耗资源就多,要经过各种处理,数据要层层包装解包装等等
而且不是说做不到分布式,而是做到比较麻烦
因为要保证节点的数据是consistent的,有大量工作要自己去实现
hdfs直接dump文件到硬盘上,然后replica,除了namenode以外,不搞transaction
也不负责灾难备份,相比之下写的时候快多了
适合web这种大量垃圾数据同时涌入时候用
读的时候,node如果fail掉的话,hdfs有checksum
所以少量的nodes挂掉,不影响系统本身的健康
chaos monkey |
|
Y*****y 发帖数: 361 | 11 放disk里面容量一般不是最critical的因素。放多个replica可以提高读操作的吞吐率
,load balancing也更好做,这些是error correction code没有的好处。不过新的
hdfs版本里面已经有支持了。两三年前G自己的文件系统也有了。 |
|
Y*****y 发帖数: 361 | 12 放disk里面容量一般不是最critical的因素。放多个replica可以提高读操作的吞吐率
,load balancing也更好做,这些是error correction code没有的好处。不过新的
hdfs版本里面已经有支持了。两三年前G自己的文件系统也有了。 |
|
b********r 发帖数: 620 | 13 我现在准备上的一个项目,没有什么头绪,或者说是头绪太多。恳请大牛斧正和指教。
现在开发环境是C/C++,Oracle.下面用英语,描述起来方便些。
there are 2 services, service_a and service_b.
service_a majorly does calculation for the given entity. after that if the
calculated result is different to what's persisted in Oracle DB, then update
the corresponding rows for the given entity in Oracle DB. entities are
received continuously from some queuing services.
service_b majorly does read from Oracle DB periodically, let us say every 4
hours. it basically reads all ... 阅读全帖 |
|
g*****g 发帖数: 34805 | 14 MySQL with a readonly replica. Front your DB with Memcached.
update
4 |
|
m*****k 发帖数: 731 | 15 很好奇你们公司start service b 的时候为何没考虑DB master slave replica, if
oracle is too expensive for that on cost, switch to mysql immediately,
instead of re-invent the wheel by creating the delta + merge
(很可能service A 写数据库的code是oracle depended, nobody wanted to change. ) |
|
g*****g 发帖数: 34805 | 16 read replica的做法都是基于commit log asynchronously replay, 可能会有几秒延迟
,对性能不会有影响。
几个M记录的表对MySQL不算什么。性能通常都是由架构和设计决定的,Oracle和MySQL
的性能差异极其有限,如果不是MySQL更快的话。
for |
|
w**n 发帖数: 122 | 17 来自主题: JobHunting版 - 秒杀设计题 设计题难道不是谈具体怎么处理,比如load balancer, DB sharding, data replica等等
二爷说的这些技术,没用过基本就是不知道,即使读过,也只是皮毛的皮毛
公司infra用什么技术,其实也没多大的自由度 |
|
x*****n 发帖数: 195 | 18 没做过realtime sys的项目。根据批处理数据的经验瞎想一下:
如果store调用频率高或者test频率高应该怎么设计。
store(int newInt)使用多: 可以考虑开个list来cash下最近的new ints,超过一定的
time threshold或者size threshold才往hashtable里flush。这样减少对hashtable的
写操作,否则过多lock性能不佳,也可能block test操作。
test(int targetInt)使用多:考虑对hashtable做多个copy,也就是search system常
用的replica设计,让test操作assign到10个、100个hashtable instances上去跑,每
个再对应一个thread。 |
|
b*****n 发帖数: 618 | 19 有多少use case真的需要这么强的consistency?
eventually consistent一般情况下足够好了,反正总要tradeoff
另外remote replica要保证flush to disk是那么简单的一件事情么。。
这方面的各种讨论不要太多。
如果按照你的说法很多所谓强C的系统都达不到要求
很多情况都不会选择把flush到disk才算真正写到persistent storage里面,否则性能
达不到要求。
估计现在这些DB产品里面你能看得上的可能也就spanner,可惜狗家外面没有相匹配的。 |
|
j**********r 发帖数: 3798 | 20 就这点数据量,一个关系数据库就得了。弄个read replica备灾足以。杀鸡用牛刀显
示的是没有经验。一个天气预报网站你要cdn干啥,要multi DC干啥?
,
tier
}. |
|
w**z 发帖数: 8232 | 21 霸哥,现在面试都是靠忽悠,不忽悠拿不到offer 的。
就这点数据量,一个关系数据库就得了。弄个read replica备灾足以。杀鸡用牛
刀显 |
|
发帖数: 1 | 22 【 以下文字转载自 Programming 讨论区 】
发信人: MoonChild (df), 信区: Programming
标 题: 一般distributed system用什么consistency model
发信站: BBS 未名空间站 (Tue Apr 18 17:22:40 2017, 美东)
有两个server, 互为replica, 每个都和自己的backend talk, 但database 是同一个。
要求是要implement consistency+in-memory cache, 具体哪种consistency 也不知道
。还要fault-tolerance
有什么思路呢多谢 |
|
j**********r 发帖数: 3798 | 23 两个同样前端结点,两个同样后端节点。数据库加个standby replica就差不多了。 |
|
发帖数: 1 | 24 thanks a lot.
Actually it's a project for a distributed system course
I have no idea at all how to implement. The requirement is kinda vague as
well.
It just asks to implement all the concept.
The system is internet of things, where you have sensors/devices and a
gateway(controller) and a backend server(persistence layer)
I can think of a replica both for the gateway and backend, but I still have
to think about it.
intensive
global |
|
w*****g 发帖数: 1415 | 25 1. 最先分析query,看看query有没有优化的空间,或则简历index
2. 预先计算某些query的结果,然后存起来。比如学生的GPA,实时算起来很费时。我
们就建立一些trigger,每次某些数据库表有变动就自动计算并保存结果到GPA表。
3. 静态化,最常见的是新闻系统和文章管理系统。每次更新新闻/文章的时候,产生一
个文本文件,在file system里面存储。用户读取的时候从文件系统读,不经过数据库
,或者只有小部分数据经过数据库。
4. mysql replica,费时的查询可以交给只读的Mysql
5. memcached/redis
6. 升级服务器硬件(很多时候这个方法最省钱省时间) |
|
G**O 发帖数: 147 | 26 我觉得还是能用cursor
cursor之前的timeline都被query过了,
cursor之后的timeline,全部fetch,然后按照rank 排序,返回rank高的几个并且在DB
里面mark成visited。。如果cursor恰好被mark了,就把cursor移动到下一个。
不过这样的问题在于,如果我是分布式的,我要把好几个replica都mark成visited,可
能会比较慢。
的 |
|
m******e 发帖数: 82 | 27 还是认真回答一下吧:
1. 你可以设想每个银行开放自己的接口,可以操作credit/debit card,在你的系统中
可以抽象一层,对外暴露统一接口,对内处理各种银行。以后有了新的银行就可以在接
口不变的情况下扩展。这时你会发现其实外面有这样的服务了,比如stripe。
2. 直接返回错误用户体验太差,可以添加重试机制,异步扣款,扣款成功邮件提醒。
3. 这是一个compliance问题,涉及法律问题,应该由business的人决定,当然保存了
之后下次再捐款可以很便捷。
4. 不同数据存不同数据库,像个人信息,卡信息可以存rdbms。一些activity之类的可
以存nosql。
5. 要么同步,要么异步,自己分析
6. 用不用queue跟业务量和业务逻辑有关,如果要用就上kafka
7. 数据库变大影响是索引变大,查询更新速度变慢,所有你能想到的优化都说一遍,
比如sharding,read replica,caching |
|
m******e 发帖数: 82 | 28 还得搞清楚是什么导致处理不过来,如果是cpu就服务器水平扩展,如果是io就nosql/
cache/read replica |
|
发帖数: 1 | 29 多谢啊!对了这个是不是和 lc 里的Logger Rate Limiter 原理是一样的?
另外这是个global map吗? 如果这个share server有很多replica,这种情况怎么处理
比较好?
queue
数。 |
|
a********a 发帖数: 3176 | 30 But your 'replica' paintings from china are not 'valuable' paintings. Hang
it in the bathroom anyway if you love them as decoration, and you can
replace them in a couple of years.
On the other hand, those Chinese village workshop made painings are usually
not good enough to hang more than one in an entire house. I bought one
myself and hang it in a corner, but wouldn't get more than that. My dad
said that people's (bad) taste is often revealed by what they hang on the
walls. So I hang one of |
|
j******g 发帖数: 1428 | 31 Details
Get a one-time $50 statement credit by using your enrolled Card to make a
single purchase of $50 or more online at subscribe.washingtonpost.com by 12/
28/2016. See terms for exclusions.
Terms
Offer valid on online yearly subscriptions, reprints and permissions and
gift subscriptions only. Includes purchases via mobile app. Not valid on
print subscriptions. Excludes online Post Store, Photo Store, E-replica, and
Front Page Reprints. Offer is non-transferable. Must add offer to Card and
us... 阅读全帖 |
|
h****a 发帖数: 883 | 32 以前不太喜欢网上买东西,毕竟看照片和实物还是不一样。自从有了老二,没有太多时
间逛商场了,于是开始在网上购物,能在宝宝睡觉时买,很是方便,于是渐渐地喜欢网
购了。而且发现有一些东西只能在网上买到,倒也省了跑腿了:)
昨天在 grabbingbag 网站上买了一个包,打算让父母带回去送人。哪成想到这个网站
是在国内(买东西前找了联系地址,只发现 email 联系方式)。等得知东西要从国内
运来而且是仿制品后,便和卖家联系想取消订购。按说只在 address confirmation 阶
段,东西没有运出,应该很容易,而且应该 full refund。 可那sales rep. 先是劝你
买下,说他们的产品是 “best replica”。如要取消,必须付 9% handling fee。而
且态度大转变,很蛮横。真是岂有此理!等明天看信用卡公司能否拒付?
习惯了在美国买东西的好买好退换,越发不能接受国内的态度了......
有类似经历的jm吗? |
|
g**n 发帖数: 25142 | 33 k,看了一下about us,还真的是中国的:
myboxedset.com is one of the biggest online replica watchers corporations in
Asia, committing itself to build a worldwide supply shop online. Our
company was originally set up in Fujian, China in 2009, aiming to operate
the business-to-customer transactions with overseas consumers. Along with
the rapid development of electronic business in China, myboxedset has earned
itself a solid reputation for quality, reliability and professionalism in
this field. Our operation capab... 阅读全帖 |
|
|
k*n 发帖数: 1203 | 35 "Established in Early 2005, Omegawatchessale.com is dedicated to providing
the best replica solution."
人家也不算骗子。谁以为是真的,谁就是sb. |
|
s*****l 发帖数: 2776 | 36 奇迹。。
About Us
LuxurySaleZone was established in early 2007 as a specialist online store
selling designer name fashion items at greatly discounted prices. Our bags
are highest quality replicas of the original bags, not authentic, but we 100
% guarantee that everyone will think it's authentic. |
|
f*******3 发帖数: 21 | 37 别人点着要的,我在洛杉矶,在洛杉矶的专卖店里没有的话,
怎样才能买到?
求助啊,多谢啊
chanel Wallet Cambon Wallet Long Zip - Black on Black replica
Actual size: 7.9" x 4.7"
Model: Chanel CC1240
Chanel CC1240
淘宝链接:
http://item.taobao.com/item.htm?id=7274774533
|
|
s*********0 发帖数: 915 | 38 关于高仿的东西可以买嘛 感觉这个是replica的,, |
|
|
|
x******0 发帖数: 1058 | 41 【 以下文字转载自 Basketball 讨论区 】
发信人: xyz32310 (I like traveling), 信区: Basketball
标 题: NBA球衣中的Jersey类型到底是啥意思?
发信站: BBS 未名空间站 (Wed Jan 16 22:59:27 2013, 美东)
以前只知道有replica, swingman, authentic. |
|
a*****b 发帖数: 121 | 42 如果注明是replica那就是不打自招。
In this case, do not ask, do not tell is my policy. |
|
a*****b 发帖数: 121 | 43 如果注明是replica那就是不打自招。
In this case, do not ask, do not tell is my policy. |
|
g******e 发帖数: 14 | 44 假货也分有没有技术含量的。像replica的就很多人在做,貌似还做的挺大 |
|
b******l 发帖数: 299 | 45 苹果地图问题不影响手机销量!
Apple Maps Flap Hasn't Sapped IPhone Sales
Sterne, Agee & Leach
Despite well-publicized concerns with Apple's new iPhone 5 Maps app, we have
not picked up changes in supply-chain build plans. Demand appears robust
with its online store quoting a lead time of three to four weeks.
In addition, we are seeing improving yields on in-cell touch screens meaning
it is becoming less of a constraint. Instead, what appears to be limiting
production is assembly of the iPhone 5 itself as it is... 阅读全帖 |
|
f********r 发帖数: 304 | 46
1primary+
碎片
cassandra 确实算是比较稳定的,但是因为用JVM经常会被人喷,虽然我没遇过什么坑
。现在还有一个copycat scylladb。之前有机会见过他们的高层,感觉兴致勃勃的要彻
底beat casssandra成为下一个mongodb。我现在infra搞的少了,现在帮一个startup
bootstrap他们的产品。基本RDS的postgres (w/ read replica)就搞定。简单易用。
多说两句mongodb。v3以后确实要好很多,但是这是相对v2而言,不是和peer比。
Postgres有很多extension也很好用,虽然sql vs nosql各有利弊,关键还是要看
application的需求。MDB的股票建议大家还是小心点,我看最近daily volume都很弱。
而且它家不赚钱还是有些问题。互联网和软件行业的大部分profit都是做广告,应用(
包括个人和business)以及API的。做infra的monetization都比较困难。比如docker很
方便好用,但是最为公司运营我不看好它家能赚很多钱。同样的hashicorp... 阅读全帖 |
|
t***e 发帖数: 3601 | 47 Send him something that is good and annoying and can attract attention for
newspaper. How about some big statue of liberty replica? |
|
p*****i 发帖数: 1183 | 48 nod nod nod, a living replica of aQ
crazy
Hide
and |
|
j******l 发帖数: 1068 | 49 【 以下文字转载自 ChinaNews 讨论区 】
发信人: javacell (风之浪人), 信区: ChinaNews
标 题: 转载:中国女人的抱怨-中国男人比日本男人差远了
发信站: BBS 未名空间站 (Sun Jul 19 10:26:14 2009, 美东)
中国女人的抱怨:中国男人比日本男人差远了2009-07-18
版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://shishangfengrenba.blogbus.com/logs/42571426.html
接触很多年日本文化,本来我不想承认题目这个事实,但是不得不承认,中国的绝大部
分男人,很差,差到向往日本女人却总遭遇人家的白眼,fake louis vuitton handbags
。甚至有人在网络上开始发表那篇文章,我想我有必要说明一下真相。
1,现代的日本社会,很照顾女人,Replica Handbags 在日本,没有像我们中国女人这
样,结婚后拼死拼活的工作着的女人,所以大家都很想快点结婚,把生存压力转移到男
人身上,然后自己在家做点家务,逛逛美容院,这样舒服的日子,中国 |
|
|