l**b 发帖数: 64 | 1 【 以下文字转载自 Programming 讨论区 】
发信人: libb (你是猫鼬嘛), 信区: Programming
标 题: 小白弱问一个AWS EC2 outage的问题
发信站: BBS 未名空间站 (Wed Mar 12 20:30:46 2014, 美东)
本人歪打正着转行web developer,边工作边学的阶段。请教各位一个AWS EC2 outage
的问题,求大家指点,有说的外行的地方,请大家不要见笑。
现在网站用的是AWS EC2,大概日访问量200-400,去年是medium的instance,今年一月
份客户因为预算的原因,要求改到了small,一直到三月初都很正常。最近两周,网站
down了三次,第一次是server reboot但是MySQL没有autostart,改好了。第二down掉
之后,负责server的人给重新clone到了一个新的small instance。第三次down,给重
新换回了medium instance。
现在客户很不情愿换到medium的instance,因为觉得网站流量不大。请问大家,可能是
什么原因导致的这个问题频繁的发生呢?是网站被攻击了么?如果是,如何能排查一下
原因?如果就是instance的大小的原因导致的,我该怎么向客户解释从一月到三月初都
没问题,这两个星期出问题呢?
从cloudwatch看到的,outage时候CPU达到了100%。虽然EC2 有CPU steal的问题,但是
也不至于outage吧。之前运行良好的时候,每天CPU也会在一个固定时间达到100%,这
个是什么原因呢?
从Google Analytics上来看,访问量都正常,应该不是访问量过大造成的outage,而且
在这个期间,网站几乎没有更新。
先谢谢各位了! |
g****z 发帖数: 1135 | 2 猜是EC2的问题,这种clone VM谁能保证它操作过程中不出差错呢。再换回小的试试? |
l**b 发帖数: 64 | 3 当时确实担心clone有问题,两个instance跑了一个周末,一切正常之后,才把之前小
的给停了。现在就是不知道该怎么给客户解释这个原因。客户不能接受是EC2的原因,
非常固执,一直说如果AWS不稳定,就不要用了:(
【在 g****z 的大作中提到】 : 猜是EC2的问题,这种clone VM谁能保证它操作过程中不出差错呢。再换回小的试试?
|
g****z 发帖数: 1135 | 4 那就别用了贝,找个VPS也不是难事。
你可以找找看为啥,是被reboot了还是啥的,看看log之类的。啥叫down了?
【在 l**b 的大作中提到】 : 当时确实担心clone有问题,两个instance跑了一个周末,一切正常之后,才把之前小 : 的给停了。现在就是不知道该怎么给客户解释这个原因。客户不能接受是EC2的原因, : 非常固执,一直说如果AWS不稳定,就不要用了:(
|
s****y 发帖数: 983 | 5 尽量别让cpu100%,micro instance如果cpu连续峰值是会被锁死的
查查程序有没有memory leak之类的
如果之前正常,看看是不是数据库有什么毛病了, |
g****z 发帖数: 1135 | 6 说的是。感觉楼主对如何认定是“down”没解释得清楚。
【在 s****y 的大作中提到】 : 尽量别让cpu100%,micro instance如果cpu连续峰值是会被锁死的 : 查查程序有没有memory leak之类的 : 如果之前正常,看看是不是数据库有什么毛病了,
|