关于failover的讨论汇总 - 话题女王

全部话题 - 话题: failover

T********i
发帖数: 2416

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

一个大型系统必须有一个failover的完整方案。近日讨论中发现，网友在这个问题上多
存误解。而且很多错误认识竟然大行其道。
为再次避免谬种流传，不敢自匿，特公诸于众：
其实，这里面每一个事实，我都已经于多天前提到了。
Complete Failover Handbook
废话少说，failover方案一般2种
1. 同步写盘
2. 同步写网络（必须等ACK）
其他还有一些组合，比如异步写盘+同步写网络等等
现在看看同步写盘：
普通磁盘：
这个其实最复杂，为什么。因为我说过，磁头seek 5-8ms，转速4500-15000 RPM。
文件系统不好做就是要为磁盘做优化。因为磁盘的寻道seek太慢，因此尽量让文件水平
放置在磁道上。因为顺序读写sequential最普遍。磁盘转速太高sector扇区的编码还要
隔开。这样读完一个扇区OS发请求的间隔时间内，刚好转到下一个扇区。
同步写盘因为到达时间随机，基本上需要平均等半圈，这样平均按照15000 RPM算就是
15000 / 60 × 2 = 500次每秒。实际上数量应比这个低因为会seek。
当然如果sequential不间断同步写盘... 阅读全帖

g***l
发帖数: 18555

来自主题: Database版 - 有谁能讲讲SQL SERVER 2008 FAILOVER是怎么做的啊

我对FAILOVER比较糊涂
CLUSTERING，FAILOVER，应该不用改应用程序，FAILOVER应该是内部的，CLIENT看不出来
DATABASE MIRRORING 比如我有SERVER1-DB1 PRINCIPAL，SERVER2-DB1 MIRROR,SERVER3
WITNESS，用SYNCONOUS AUTOMATIC FAILOVER, AUTOMATIC FAILOVER是怎样的，是
SERVER1自动指向SERVER2的DB1么，不用改CLIENT应用程序？如果SERVER1 CRASH掉了不
存在了，SERVER2会自动变成SERVER1么，这个是要在WINDOWS里做的吧，不明白，AUTO
FAILOVER AUTO在哪里
如果是MANUAL FAILOVER又是怎么样做的
我想LOG SHIPPING的话，如果SERVER1 CRASH，要么RENAME SERVER2 TO SERVER1,要么
CLIENT指向SERVER2
有经验的指点一下吧。

g*****g
发帖数: 34805

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

把这个帖子加上，魏老师自宫，又不敢把这个技术贴转过来。
再来看魏老师那小儿科的failover测试:
“由此可见。那些言必称failover的。其实毫无概念。反正谁也没有真正拔下插头测试过
他们的系统。BTW，这个我亲自干过。”
知道有一个很有名的东西叫做chaos monkey吗？俺们公司某大牛写的。干得事情就是每
天去产
品环境里随机得把机器干掉。我们不只是测试了zone的failover，我们最近还测试了
region的failover。如果整个us-east的3个zone当了，我们可以把所有流量转移到us-
west的3个zone。你试过把北京的三个数据中心全干掉，看看广州的三个数据中心能不
能接管吗？这就是我们测试了的，产品环境。
作为我们做cloud app的，从来就不假设机器靠谱，机器多，出错概率就大。failover
本来就是架构必须的一部分，否则如何达到3个9。而且我们的应用是24*7跑的，不像股
市还可以关门。我们可不想半夜起来处理问题。

r*t
发帖数: 34

来自主题: Java版 - [转载] Questions on failover & Hot deployment

【以下文字转载自 BuildingWeb 讨论区,原文如下】
发信人: rgt (一脸无辜), 信区: BuildingWeb
标题: Questions on failover & Hot deployment
发信站: Unknown Space - 未名空间 (Sat May 14 12:16:51 2005) WWW-POST
I have some questions about 'failover' and 'hot deployment' on several J2EE
platforms, any advice or hints will be highly appreciated, thanks a lot!
1. Some vendors, such as IBM websphere, have fufil the "stateful session
failover" and "HTTP session failover", so we can easily use those functions
just as do a little setting w

r*t
发帖数: 34

来自主题: Java版 - Re: [转载] Questions on failover & Hot dep

Thanks a lot for your answer, it is really helpful for me. But I still have
some puzzles to be clarified, thanks for your advice very much!
1. You talked about failover related to 'clustering', however, my project
focused more on 'failover' itself. All we need is just failover, not
clustering. In this case, can we still have the similar expection as for
clustering? Correct me if I am wrong, for 'failover' related to clustering, we
rely more on hardware. However, here we means to implement 'failo

r*t
发帖数: 34

来自主题: BuildingWeb版 - Questions on failover & Hot deployment

I have some questions about 'failover' and 'hot deployment' on several J2EE
platforms, any advice or hints will be highly appreciated, thanks a lot!
1. Some vendors, such as IBM websphere, have fufil the "stateful session
failover" and "HTTP session failover", so we can easily use those functions
just as do a little setting work in container level. It seems that those
functions are not a part of J2EE standards,but just the extension function
supplied only by different vendors (correct me if I am

a***n
发帖数: 262

来自主题: EmergingNetworking版 - Internet Multi Sites Firewall Failover

I am always curious about how big service provider
do this.
Take an example, I have two sites, running BGP with
one service provider at each location. How do you
implement the firewall failover at these two locations?
For Cisco ASA or FWSM, my understanding is that you
have to run ASA/FWSM in transparent mode, and put them
in a failover pair which means these two sites has to
be in HSRP/VRRP for the pass thru VLANs.
Another mode I used in our campus, just stateless
symmetric routing failover. E... 阅读全帖

r*t
发帖数: 34

来自主题: Java版 - Jboss Failover (unplug network cable)

Hi, guys
I am sorry to bother you, actually I have two servers (A and B) in my
clustering, both run w2k and jboss4.0.2.
I have a stateful session bean run on two server, and one standalone client
run on one server (A). when I try the failover function of Jboss, I found that
if I kill one server by Ctrl+C, my standalone client will not notice it, so it
failover to another server perfectly. However, if I unplug the network cable
of server B, I found that it will take extreme long time to failover

T********i
发帖数: 2416

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

发信人: goodbug (好虫), 信区: Programming
标题: Re: 写一个Complete Failover Handbook吧
发信站: BBS 未名空间站 (Tue Nov 26 22:00:50 2013, 美东)
魏老师又来伸脸找抽了，很好，我就再抽几下让他长长记性。
说到这个failover，Cassandra replica factor 3, Quorum read/write的本质，就是
两结点的同步写，加一结点的异步写。魏老师提到了这个不是sync，是flush，没有错
，flush和sync有间隔，而且缺省设置远比他想象的时间长，不是ms级，而是10秒，当
然可以调，调到0就是sync，但是慢。
http://wiki.apache.org/cassandra/StorageConfiguration
好，现在想象一下啊这10秒里结点挂掉。如果挂掉一个结点，数据没有丢。读写也没有
任何影响。如果挂掉两个结点，这个本身就是个很小概率的事件，但数据还是没有丢。
但是读写不会成功。Cassandra的monitor process (Priam)会自... 阅读全帖

r*t
发帖数: 34

来自主题: BuildingWeb版 - puzzles about load balancing and failover of JBoss cluster (转载)

【以下文字转载自 Java 讨论区】
发信人: rgt (一脸无辜), 信区: Java
标题: puzzles about load balancing and failover of JBoss cluster
发信站: BBS 未名空间站 (Tue Jul 26 09:08:10 2005)
I just go through the book 'jboss clustering', but still have several
questions related with the load balance and session bean failover capabilities
of JBoss cluster.
1) It seems that JBoss cluster cannot balance running process, for example, I
have a two-node (A and B) cluster (my EJB running on both with clustered
configuration), and three sa

g***l
发帖数: 18555

来自主题: Database版 - 有谁能讲讲SQL SERVER 2008 FAILOVER是怎么做的啊

谢谢A9,我查了ASP.NET是这样说的,是不是说一开始写程序的时候就把FAILOVER的IP或
者SERVER NAME就加上，这样就不用再去改了
Specifying the Failover Partner in the Connection String

z**r
发帖数: 17771

来自主题: EmergingNetworking版 - Internet Multi Sites Firewall Failover

don't quite understand your question. you want failover within the site or
you want failover cross the sites?
btw, you don't have run the firewall in transparent mode, coz BGP is TCP
based, as long as the 2 BGP routers can reach each other via TCP, then they
are good to go

m********d
发帖数: 188

来自主题: EmergingNetworking版 - Internet Multi Sites Firewall Failover

firewall failover across multiple sites, 我能想到的问题有两个：
1，ha会不会比硬件本身更不可靠
2，firewall failover和routing不配合怎么办？
至于整体网络结构有多“创新”，倒不是最重要的了，喜欢就行，呵呵。

d********f
发帖数: 8289

来自主题: Hardware版 - 有没有什么router能自动failover到4G的？ (转载)

【以下文字转载自 CellularPlan 讨论区】
发信人: ddyourself (nah), 信区: CellularPlan
标题: 有没有什么router能自动failover到4G的？
发信站: BBS 未名空间站 (Thu Jan 5 09:49:43 2017, 美东)
智能家居的single point of failure就是network。
有没有什么router／device，能够在cable network网挂了的时候，能自动failover到
一个3g／4g的hotspot上？作为一个索南，当然如果能用fp就最好了。
tp的这个为啥desktop version那么贵？
https://www.amazon.com/TP-Link-Wireless-Portable-Router-TL-MR3020/dp/
B00634PLTW/ref=sr_1_1?ie=UTF8&qid=1483627644&sr=8-1&keywords=router%2B4g&th=
1

i**h
发帖数: 17

来自主题: Java版 - Re: [转载] Questions on failover & Hot dep

the only way to support failover is via redundancy, of software processes
(e.g. you can start two weblogic servers on one machine) and hardware (e.g.
you have 2 machines with weblogic running on them, for true failover).
clustering refered to in this context is at software level, not at hardware
level. for instance, there are very complex communication schemes on how to
synchronize changes among multiple servers (see jboss jgroups as an example).
as for classloader issues, i cannot give you much

T********i
发帖数: 2416

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

发信人: TeacherWei (TW), 信区: Programming
标题: Re: 写一个Complete Failover Handbook吧
发信站: BBS 未名空间站 (Tue Nov 26 22:15:29 2013, 美东)
好好读一读我的帖子。我的设计和我现在用的不一样。那个是multicast同步复制的。
即使我异步复制，甚至不复制都没有问题。下游多串几台机器串联就好了。那就和现在
用的设计一样了。任何一台挂了，上游下游的机器补足状态。
关键的是latency增加几个微秒。复杂度增加几乎为零。因为代码一样。throughput不
变。
最关键的，我的系统实现简单。throughput高你几个数量级。而且全状态跨区failover。
请注意我的上周五第二贴，消息系统才是理论上最合理的系统。

q*u
发帖数: 166

来自主题: HongKong版 - HK和大陆的电讯商支持3G modem aggregation with failover 吗？

HK和大陆的电讯商支持3G modem aggregation with failover 吗？

g*********0
发帖数: 80

来自主题: Database版 - setup sql server 2008 r2 failover cluster in VMware Workstation 7

Recently I setup sql server 2008 r2 in VMware Workstation on my personal
computer successfully. I saved all my setup steps with screenshots and
publish the arcticle at wordpress.comhttp://clusterwhere.wordpress.com. If you are interested, welcome to read and critique. Hope it also helps those who want to pick up SQL Server Failover Cluster as a hot skill in the market.
Thanks.

m********d
发帖数: 188

来自主题: EmergingNetworking版 - Internet Multi Sites Firewall Failover

还是那个问题，是在说SP网络呢，还是corp IT网络？
firewall failover cross two remote sites？HA可能比firewall本身的
硬件更不可靠吧？

a***n
发帖数: 262

来自主题: EmergingNetworking版 - Internet Multi Sites Firewall Failover

Corp IT, but two sites with distance.
Yes, firewall failover cross two remote sites.

a***n
发帖数: 262

来自主题: EmergingNetworking版 - Internet Multi Sites Firewall Failover

Failover cross the sites.
Yes, I am aware of that. It looks like Cisco people
usually don't think no dynamic routing support
in ASA/FWSM context mode is not a big issue :-)

they

i**h
发帖数: 17

来自主题: Java版 - Re: [转载] Questions on failover & Hot dep

even though failover is not J2EE standard, every vendor pretty much
implemented it in the same way. after all, there are well-known computer
science research on how this can and should be done. and i don't think porting
to another container is a big deal because most likely you are going to have
container specific configure file for clustering (e.g. weblogic.xml,
jboss.xml, etc) and if you need to port to another container, you know where
you should change. (unless you use things like xdoclet,

r*t
发帖数: 34

来自主题: Java版 - Jboss Failover (unplug network cable)

I have changed the cluster-service.xml, so if I unplug B, A will detect it
alsmost instantly, however. It still take a long time to do the failover, I go
through the log info, and found:
2005-06-01 17:45:56,897 DEBUG
[org.jboss.ha.framework.interfaces.HAPartition.DefaultPartition] End
notifyListeners, viewID: 10
2005-06-01 17:46:52,297 DEBUG [org.jboss.ha.framework.server.HAPartitionImpl]
dests=[],
method_call=SessionState-'/HASessionState/Default'._setOwnership(ejb/MyBank,
192.168.1.100:1099:e9

r*t
发帖数: 34

来自主题: Java版 - puzzles about load balancing and failover of JBoss cluster

I just go through the book 'jboss clustering', but still have several
questions related with the load balance and session bean failover capabilities
of JBoss cluster.
1) It seems that JBoss cluster cannot balance running process, for example, I
have a two-node (A and B) cluster (my EJB running on both with clustered
configuration), and three same client requests from third computer C are
leveled with ?Round-Robin? policy, two in node A and one in node B. If I kill
node A (Ctrl+c), all processes

f****4
发帖数: 1359

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

我来学习了。我对这块不是专家，理解有误的地方请包涵。
我对同步写盘这块还是有点疑问。如果写的内容进了os缓冲区，还没上磁盘，断电。其
实还是没备份成功对不对？或者，从极限来讲，网络的同步，在ack到了之前断电，这
个同步还是失败了，对不对？
再极限一点，只要是要通过网络走的备份方案，理论上是不可能100%成功的，只能通过
冗余降低不成功的概率？那一般对failover要求高的，需要达到什么标准？
谢谢

T********i
发帖数: 2416

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

其实如果用串行的straight through的方案。没必要每个消息都同步的。反正就异步下
下去好了。确认有节点挂了再执行reconciliation process。
throughput没啥损失。latency稍微增加一点。而且跨区failover。
我一开始第二个帖子就说了。理论上基于消息的结构是最合理的。无论从语法还是从语
义来讲。

N*n
发帖数: 456

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
上游下游机器补足状态..有意思。。没见过。。不过也许和你的数据流有关。。
failover。

T********i
发帖数: 2416

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

基本上任何transaction都可以这样failover。我的上周前两贴已经说过了，network
communication参与transaction。关键是数据流定义了状态自动机的输入输出。只要是
状态自动机，这个方案都应该有效。
多说几句，因为每台机器都有完整的message sequence。这样只要补足in/out丢失的
message就好了。
本质就是一个journal log。

g*****g
发帖数: 34805

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

魏老师原作在此，上百万每秒的请求是你自己要求的。现在反反复复的当作没这回事？
你再failover，standby又不能帮你处理这个冲击。multicast的结果是所有结点
一起挂，你丫也太丢人了吧。
发信人: TeacherWei (TW), 信区: Programming
标题: 好虫，看看你的东东有没有问题？
发信站: BBS 未名空间站 (Fri Nov 22 09:03:18 2013, 美东)
3. 瞬时负载。要做好在几十分钟内每秒几十万上百万请求的准备。

T********i
发帖数: 2416

来自主题: Programming版 - 清净版：写一个Complete Failover Handbook吧

我的failover是在毫秒级别内搞定。效率甩你几条街。

g*****g
发帖数: 34805

来自主题: Programming版 - 请教一下魏老师的failover方案

别切，两个DC现在功能不一样了？那废掉一个，另一个还能提供所有功能吗？
你是说一个DC废掉了，要吗web就连不上了，要吗银行就连不上了。你这还叫failover
吗？

T********i
发帖数: 2416

来自主题: Programming版 - 请教一下魏老师的failover方案

几毫秒后，主控switch over。相应的服务重连好了。死掉了怎么连？连新的好了

failover

g*****g
发帖数: 34805

来自主题: Programming版 - 请教一下魏老师的failover方案

两个网络直接断了的时候，是不知道对方是断了，还是整个DC废了。
你做failover，还先看到future，再定夺，太赛亚人了吧？

T********i
发帖数: 2416

来自主题: Programming版 - 回goodbug，关于DC的failover策略，兼普及基础知识

一旦网络出现中断。不论是暂时还是永久性的。上游要进行一套route discovery
process。其实底层的TCP会试图寻找新的route或者重连接。
现在说说我的高层系统方案。
我说过了，上下游是单机绝对串行。什么叫串行不解释了。
一旦网络断开。上游机可以永远假设是永久性断开，着火或者核爆无所谓。这时他试图
连接下游的下游的那台机器。这个是在网络层的，router来处理就好了。
现在有两种情况：
1。下游的下游也连不上。这已经超出了你的只有一台DC fail的假定。大规模坏死谁也
没有更好的办法。当然了。我的方案还可以试着连下游的下游的下游。能连上照样无缝
failover。嘉定我们肯花钱多搞一台备份机的话。
2. 下游的下游能连上。这时候两种可能：
A. 下游的下游发现不对，怎么两台上游连我了？会拒绝。让你重复recovery过程。
其实两台机器都能连下游的下游说明是有route的。属于非永久性断开。这时再重连接
就好了。
B。下游确实死掉了。连接下游的下游。开始短暂的sync过程。
这个串行机制是本系统内的。一切都将在可控之内。唯一的外部因素是用户browser... 阅读全帖

T********i
发帖数: 2416

来自主题: Programming版 - 回goodbug，关于DC的failover策略，兼普及基础知识

当然是专线。
有人不服气，非要做跨DC的failover。要求一个DC被核爆老百姓还能上网买火车票。
多花点钱每个DC放一台。注意就放一台！让他们闭嘴。
mongoose。以前是BSD的。现在改成GPL V2了。但是我仍然可以用老的BSD代码hoho。

T********i
发帖数: 2416

来自主题: Programming版 - 回goodbug，关于DC的failover策略，兼普及基础知识

要做到跨DC failover。DC带宽必须足够。状态都出不去，死掉就丢了。
其实那每天顶多上千万张的车票，需要多少带宽？
关键是我的系统响应和容量跟上去了。

g*****g
发帖数: 34805

来自主题: Programming版 - 回goodbug，关于DC的failover策略，兼普及基础知识

原来你连leader election都不懂，还有脸谈failover?
你的问题是内存数据库，是内存数据库就有网络断加断电的风险，你再绕也是绕不出去
的。

h**********c
发帖数: 4120

来自主题: Programming版 - 有两个问题请教服务器，failover问题

有两个问题请教
1.服务器，failover问题，大概十年前的东家就是raid-10，可能raid-5，然后fibre到
另一个硬盘箱子上mirror，这budget 也就不过几万刀而已，沈阳军区要做，估计fibre
可以拖到北京，还是一台主机。
2.有人讲过big data，说要算磁盘的内圈外圈，敢情big data的DB SERVER都不用raid
，要内圈外圈。有可能是blade server，一般不做raid.
做过的，让咱长长见识，其它就免了吧。

g*****g
发帖数: 34805

来自主题: Programming版 - 有两个问题请教服务器，failover问题

整个big data的理念之一，就是认为硬件不可靠，通过软件来获得可靠。
给你raid，你也不能防止机器坏掉。机器坏掉的时候得人为去把硬盘扒出来，24*7的应
用等不起。
与其如此，不如干脆就用commodity hardware，当时写数据直接写多份，写到多个数据
中心，甚至写到异地多个数据中心。用软件来控制failover.
Cassandra就是这个理念一个很好的体现。

fibre
raid

d********f
发帖数: 8289

来自主题: CellularPlan版 - 有没有什么router能自动failover到4G的？

智能家居的single point of failure就是network。
有没有什么router／device，能够在cable network网挂了的时候，能自动failover到
一个3g／4g的hotspot上？作为一个索南，当然如果能用fp就最好了。
tp的这个为啥desktop version那么贵？
https://www.amazon.com/TP-Link-Wireless-Portable-Router-TL-MR3020/dp/
B00634PLTW/ref=sr_1_1?ie=UTF8&qid=1483627644&sr=8-1&keywords=router%2B4g&th=
1

f****4
发帖数: 1359

来自主题: Programming版 - 从工程角度再比较一下春运火车票的2个方案

说一下个人背景，各位自己判断是否有必要浪费时间看我码的字。
码完了比较之后码一点个人感想，有兴趣的就看，没兴趣的跳过，谢谢。
国内6年做项目的经历，做过通用财务（就是实现），石化行业固定资产（需求不是我
做的，别的归我负责的），服装行业预算和政府的财政预算（标书不是我写的，剩下的
我都做了）。
先说一下工程角度比较什么。需求分析，技术方案可行性，项目实现难度，项目风险控
制，工期和预算。
需求分析放这不伦不类，但需求是基础，基于需求给方案。你得了解用户想要个什么玩
意，哪些是必须实现的，哪些是可以讨价还价的。你学过的软件工程，课本上说的教条
实际行不通。国内的需求，更像agile开发过程。签了合同，用户想改需求就改了。你
就是交货，客户签字了，加个功能就加了。
工期和预算，因为之前就讨论2个方案的技术可行性，这2块没怎么提.但魏老师的方案
，主要的主机实现，是黑盒，不能堆人上去，很可能因为这一块拖累整个工期。
goodbug的方案，工期上压力还可以，因为通用方案，堆人上去。但后果也很明显：人
工上去了，人的素质总有高低，最后得靠QA把关。
技术方案可行性，之前的讨论就集中在这一块。
魏... 阅读全帖

f****4
发帖数: 1359

来自主题: Programming版 - 春运火车票2个方案比较

我是不明白Cassandra是怎么工作的。
我一直在问，你的failover方案里面是怎么做网卡IO里面的买票请求的failover的：
你的写数据库的server，网卡IO一收到订票请求就往Cassandra上面扔，写log？然后
failover的时候，重新从Cassandra上面吧这些网卡IO收到的，没处理的订票请求通过
log恢复？
如果这是你的failover方案，你的写数据库server完成一次failover得花多少时间？估
计一下就可以了。
我没和你争论每秒一百万次的写。如果连你给的这个假设都不信，我就不费那神看你方
案了。

c*****s
发帖数: 214

来自主题: Java版 - About Hibernate

你的发言总是这样，说一些没有根据的结论。你如果想说服别人什么就要拿出事实，方案
，数据,对比或者连接。
好的软件不是powerful，而是simple, clean。"Hibernate doesn't have its own
transaction layer"只能显示你对软件设计的理解肤浅。
hibernate是OR Mapping工具，理想的OR Mapping工具应该只做Mapping, 提供简单的接口
使用别的caching，datasource, transaction, failover... 要集成别的JTA，当然要在
配置文件里设置。如果你个工具自己偷偷摸摸提供自己transaction实现不让我知道，我
是无论如何不会去用它的。
缓冲，failover这种都是一个道理。hibernate的CacheProvider可以配置，默认用ehcach
e。觉得ehcache不好就换呗，谁都不好用就自己写呗。failover, cluster和OR Mapping
没有直接关系。一个OR Mapping工具泛得着去提供最好的缓存和failover机制吗？
想做cluster

f****4
发帖数: 1359

来自主题: Programming版 - 春运火车票2个方案比较

讨论设计方案，必须有个背景才有意义。这个卖春运火车票的网站就是个很不错的例子。
比较方案的时候，可行性是根本，都可行的情况下考虑成本。可行性里面需要考虑到
performance，availability,scalability，工期还有系统的复杂度。这些都是讨论的
基础，你不能简单的说“你这方案比scalability比不上分布式，比响应比不上硬实时
系统”。没有方案是完美的，我们现在只是在给定的案例下面讨论两个不同的实现。如
果背离这个约定，那就又成为毫无意义的口水帖了。
因为有些人根本不仔细看别人帖子，我把2个不同方案的实现，大家提及的疑问及解答
，按照我的理解复述一下，也请魏老师和goodbug指正。当然了，我主要复述一下魏老
师的方案，毕竟分布式的大家多少都了解一点。
主机配置，4个10G/s网卡，全双工80G/s，对CPUS没特殊要求，内存没提，不过现在服
务器上到90+CPUS，36+G内存也就是5万美金，魏老师声称1万的主机还算靠谱。
魏老师在后面的帖子针对availability的问题提到了hot standby server，3zone，多
hot standby ... 阅读全帖

L*****e
发帖数: 8347

来自主题: Programming版 - 潜水员上来评价一下这几天的混战，乔峰大战鸠摩智

通过heartbeat交换通知不是问题，我的意思是这改变了failover的本质，failover应
该是你一台机当了failover挑起大梁继续工作，这里成了串联的failover机一当，或者
串联网络一出问题，干脆整个系统都不工作了，这反而是增加了failure的概率。。。

c*****d
发帖数: 6045

来自主题: Database版 - sql server 面试题（1）

1.
因为是A/A,所以在failover的时候
failover node要hold failed node的memory
这样的话failover node有可能内存不足
导致virtual memory is low
解决办法是设置Max server memory
2.
设置每个节点的max server memory
保证总和不超过任意一个节点的physical memory
or
增加ram
lz公布一下答案吧,再来几道题给大家做做

node
administrator
the

f****4
发帖数: 1359

来自主题: Programming版 - 春运火车票2个方案比较

我是很质疑你这1.2G/s的failover怎么实现的。。。
我已经提到了我前公司支持1G/s的failover，就为了支持这一个就搞到几个专利。
我很愿意倾向性的相信我们前公司的人都不牛B。
这块东西，我对魏老师的方案也半信半疑。起码这网卡里面全双工的数据能不能做到无
缝switch，我很怀疑。
坦白讲，我更愿意假设2个方案网卡里面全双工都丢失，然后比较failover需要花的时
间长短，来检验是否能做到99.99%的系统。
堆机器，是要花钱的，如果你要是去租机器，也牵涉到一个风险控制。为了卖39天火车
票，你越分散throughput，风险越大。考虑到天朝的实际情况，一纸合同有多少约束力
，我很怀疑。。。
这就是为什么同样假设堆机器的情况下，我会把throughput扔给你让你再解释一遍。

回。

f****4
发帖数: 1359

来自主题: Programming版 - 春运火车票2个方案比较

我是没明白，因为你的方案前后不一致。逻辑上讲不通。打补丁是可以的，但是我要是
漏掉了你的哪个回帖，没更新到最新的方案，你也多包涵。
去翻你的旧方案，这纯粹就是口水仗，没有意思。我就更正你对魏老师方案的一个理解
错误，然后你正面回答我两个问题就可以了。
“魏老师那10万次读写，还要加锁更新计数器的”你这理解是错误的。魏老师的主机其
实就想替代你的余票数据库。但他不用数据库实现。你可以认为都放到内存里面了，主
机就是处理定票请求，返回订票成功与否。这个在魏老师的方案和我的小结里面都提过
的。因为他给了个高throughput的方案，所有订票请求都在一个queue里面，根据到达
先后入queue。任意时间如果是单线程的话，订票是不需要加锁的（加锁这个是你强加
给别人的-_-）
然后这个主机上面，完成定票本地需要写log，然后会把log广播到standby上面去。log
广播的速度应该不是主要问题，主要问题是本地的log写。然后就像你计算的那样，余
票的数量是到不了10万次/s的要求的。我不明白你为什么要人家实现10万次/s的写操作
，难道就因为Cassandra能实现1百万次/s的写？？？我... 阅读全帖

g*****g
发帖数: 34805

来自主题: Programming版 - 阿里系统崩溃，没人讨论下

high availability是个很复杂的问题，现在有云相对容易做一些。总体来说要做到
active/active regional failover，一个城市挂了，可以切换到其他城市去。AWS做
zone failover很容易，regional failover基本得自己做。
另外Chaos Monkey的实践是必须的，只有经常在产品环境里做可控的模拟灾难，才能知
道系统到底哪里薄弱。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天