@大厂,怎么又崩了!
最新更新时间:2023-12-27
阅读数:
最近几个月大大小小的宕机事故,多到什么程度
不少技术老炮称:周报变周爆
《崩了都崩了我也崩了》
故障能超过2小时/4小时/8小时/12小时
在互联网时代,这跟停水停电有什么区别!
对大众而言,宕机=停水停电
但对程序员来说,宕机=心跳停止
小小的App,承载了千万人的日常
天塌下来了都要先让系统恢复正常!
我们最近最经常被问的一句话就是:
“为什么会宕机?”
问得好,根本总结不了
——成因实在太五花八门了!
-
号称史诗级宕机的阿里云11.12事件
虽然官方没有给出更多细节
但结合多方信息,罪魁祸首大概率是:
底层组件里的【鉴权组件 / Auth(认证)服务】
你的卡没问题,是系统不认识你了
紧接着发生的滴滴12小时宕机事件
据大佬分析,事故原因和这三点脱不开关系:
1.不按社区文档要求升级kubernetes
2.单一巨大集群
3.团队没有回滚/故障预案
假设:
重大升级=在高速公路上,不停车换引擎
升级不规范,同事两行泪
至于大家非常熟知的这些案例↓
新浪微博因某明星官宣恋情而挂电商平台因节日大促而挂粤康码因上班早高峰而挂
原因通常是:高并发
也就是扩容速度赶不上瞬时并发量,造成宕机
尽管现下也有弹性扩容等技术
相当于水管视情况而自动增加
但当一瞬间产生的需求,超过“水管”处理速度
紧接着下一波又来了,系统自然而然就挂了
以上都比较偏软件
但硬件也可能会使绊子
比如去年此时,阿里云香港的宕机事件
起因就是,机房的空调坏了……
类似的情况还有,停电了水灾了地震了
或者是硬件组件自己,内存硬盘主板啥的突然挂了
再说下去就到玄学范畴了
历史上的宕机原因还有1234567种
但许多人毫不留情地指出:
原因只有一个!
那就是大厂做得不到位!
下了班也没关系,都住在公司一公里内,立马回来加班
更受认可的做法是:
团队分散在不同时区,工作时间首尾衔接
保证任何时刻都有人on call
且有独立解决问题的能力
否则,你家的工程师只能:
bug亦未寝
当然,技术、流程、体系建设等等等等都很重要
但最重要的可能是:
管理者怎么想,就业环境怎么变
程序员们的安全感,低到什么地步?
接下来要流行“防御性编程”“免死金牌型代码”了
如果“开猿节流”的职场传说能早早消失
不再像一把利剑悬在大家的头顶
或许宕机能再少亿点点吧!
今日互动小话题
还有什么让你们印象深刻的宕机场面?