Leiphone雷峰网

文章数:16428 被阅读:87919360

账号入驻

@大厂,怎么又崩了!

最新更新时间:2023-12-27
    阅读数:
最近几个月大大小小的宕机事故,多到什么程度
不少技术老炮称:周报变周爆
《崩了都崩了我也崩了》
故障能超过2小时/4小时/8小时/12小时
在互联网时代,这跟停水停电有什么区别!
对大众而言,宕机=停水停电
但对程序员来说,宕机=心跳停止
小小的App,承载了千万人的日常
天塌下来了都要先让系统恢复正常!
我们最近最经常被问的一句话就是:
“为什么会宕机?”
问得好,根本总结不了
——成因实在太五花八门了!
-
号称史诗级宕机的阿里云11.12事件
虽然官方没有给出更多细节
但结合多方信息,罪魁祸首大概率是:
底层组件里的【鉴权组件 / Auth(认证)服务】

你的卡没问题,是系统不认识你了
紧接着发生的滴滴12小时宕机事件
据大佬分析,事故原因和这三点脱不开关系:
1.不按社区文档要求升级kubernetes
2.单一巨大集群
3.团队没有回滚/故障预案
假设:
重大升级=在高速公路上,不停车换引擎

升级不规范,同事两行泪
至于大家非常熟知的这些案例↓
新浪微博因某明星官宣恋情而挂
电商平台因节日大促而挂
粤康码因上班早高峰而挂
原因通常是:高并发
也就是扩容速度赶不上瞬时并发量,造成宕机
尽管现下也有弹性扩容等技术
相当于水管视情况而自动增加
但当一瞬间产生的需求,超过“水管”处理速度
紧接着下一波又来了,系统自然而然就挂了
以上都比较偏软件
但硬件也可能会使绊子
比如去年此时,阿里云香港的宕机事件
起因就是,机房的空调坏了……
类似的情况还有,停电了水灾了地震了
或者是硬件组件自己,内存硬盘主板啥的突然挂了
再说下去就到玄学范畴了
历史上的宕机原因还有1234567种
但许多人毫不留情地指出:
原因只有一个!
那就是大厂做得不到位!

下了班也没关系,都住在公司一公里内,立马回来加班
更受认可的做法是:
团队分散在不同时区,工作时间首尾衔接
保证任何时刻都有人on call
且有独立解决问题的能力
否则,你家的工程师只能:

bug亦未寝
当然,技术、流程、体系建设等等等等都很重要
但最重要的可能是:
管理者怎么想,就业环境怎么变
程序员们的安全感,低到什么地步?
接下来要流行“防御性编程”“免死金牌型代码”了
如果“开猿节流”的职场传说能早早消失
不再像一把利剑悬在大家的头顶
或许宕机能再少亿点点吧!
今日互动小话题
还有什么让你们印象深刻的宕机场面?


最新有关Leiphone雷峰网的文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: TI培训

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved