重新整理 | 朱珂欣 公司出品 | CSDN流程一生(ID:coder_life)
对后端开发人员而言,“高mammalian”绝非美味的热门话题,历经过一场伺服器无法访问,生涯才“完备”。
但假如交通事故少于 12 半小时,也许会间接造成生涯“无法访问”!
3 月 29 日,#唯品会崩了#的热门话题荣登热搜。
昨晚,该事件先期来了。
唯品会正式发布了有关 329 控制室无法访问机械故障处置报告书:本次大亚湾控制室关键性机械故障,负面影响顾客达 800 余万,认定为 P0 级机械故障,对相关人士不予撤职处置。
“崩”上热搜:经济损失超亿,稳步12半小时
说出来,所有人都更要回溯到 3 年末。
3 月 29 日,有数名网民意见反馈唯品会“崩了”,用接收者登入时表明互联网严重错误,登不上来。
随后,唯品会非官方博客则表示:因控制系统雷雨大风机械故障,引致全站“Viluppuram”等机能或停机。
图源:博客截图
时隔 2 个多月,唯品会非官方对机械故障该事件做出了回应。
据悉,本次大亚湾控制室关键性机械故障的主要原因是大亚湾 IDC 冷冻控制系统机械故障引致控制室设备温度快速升高无法访问,引致线上商城停止服务。
机械故障负面影响时间稳步 12 个半小时,引致公司业绩经济损失超亿,负面影响顾客达 800 余万,公司将本次机械故障认定为 P0 级机械故障。( P0 属于最高级别交通事故,比如崩溃、页面无法访问、主流程不通、主机能未实现,或在负面影响面上负面影响很大。)
与此同时,唯品会认为本次交通事故暴露出容灾应急预案和风险防范措施不到位,并决定对本次该事件严肃处置。对应部门的间接管理者承担本次交通事故责任,此基础互联网平台部相关人士不予撤职做相应处置。
其实,类似 329 号控制室无法访问的交通事故绝非首次发生。
但毋庸置疑的是,唯品会作为拥有大量用户的电商互联网平台,伺服器和互联网设备的正常运行至关重要。任何一场无法访问该事件,都会引致互联网平台无法提供正常的服务,因此,每一场机械故障背后的原因和负面影响都值得大家思考,并引以为戒。
腾讯旗下社交软件受到“牵连”
同样值得注意的是,受到本次控制室交通事故负面影响的还有微信、QQ 等腾讯旗下社交软件,包括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和QQ 邮箱在内的多个机能无法使用。图源:博客截图
对此,腾讯微信团队在 3 月 29 日上午正式发布信息称:“今天凌晨部分用户使用微信、微信支付相关机能出现异常,经工程师抢修,控制系统正在逐步恢复,很抱歉给大家带来不便。”与此同时,腾讯内部对此该事件的评估为“一级交通事故”,并对几名高管进行了不同程度的批评、降级和和撤职处罚处置。高mammalian引起的伺服器无法访问,频繁发生
随着直播电商互联网平台的发展,用户数的增多引致高mammalian的概率增大。
近年来,各大互联网平台、热门 APP 的伺服器,都似乎难逃卡顿、崩溃乃至无法访问的宿命。
2017 年双十一凌晨,在数百万消费者的激情涌入天猫之际,出现了大量手机淘宝、手机天猫的用户无法付款和修改地址,订单、足迹、收藏夹、红包卡券等异常问题,直到 12 点 30 分,天猫的伺服器才恢复正常。
2021 年 10 月 20 日晚上,就在淘宝电商大促“双十一”刚开始之际,不少用户发现淘宝出现了客服聊天窗口消息发不出、不能点确认收货等诸多问题。随即,#淘宝崩了# 热门话题迅速荣登博客热搜榜,并占据榜首第一。
如今,即使互联网相关技术已经迭代多轮,却仍然存在许多大规模以及时间长的无法访问该事件发生。
针对这类问题,在 CSDN 之前报道的《“一天无法访问三次”,为什么高mammalian这么难?》一文中提到,可以从两个方面进行解析:
一方面机械故障是不可避免的,有人为的机械故障(人是容易出错的——Human Error)和非人为的机械故障(机器 Failure)。这些是无计划的停机,还有有计划的停机,如正式发布新控制系统、升级维护、更新硬件等。这也是为什么行业中即使部分公司做得再好也只能说自己能做到多少个 9,而非 100% 的主要原因。
当前,我们所能努力的就是尽可能地做到多少个 9,这其中需要很强的技术实力支撑。
级别
可用性级别
通俗说法
年度停机时间
配套措施
基本可用性
99%
2 个 9
3d-15h-39m-29s
服务在一个数据中心里有冗余,简单此基础的自动化运维高可用性
99.9%
3 个 9
8h-45m-56s
大量的自动化机械故障工具,以及各种控制调度控制系统等此基础设施要做好
具有机械故障自动恢复
99.99%
4 个 9
52m-35s
本地多控制室(像 AWS 一样每个地方都有三个可用区)
极高可用性
99.999%
5 个 9
5m-15s
远程多控制室,异地多活
另一方面,从分布式架构设计而言,世界上的软件都是有机械故障的,当机械故障发生时,大家首先希望机械故障不要蔓延开,能够控制得住,其次还希望机械故障的时间越短越好,不要太长。
然而,架构控制系统也有很多的依赖,如此基础设施 DNS、CDN、运营商、控制室等等,想要实现稳定,需要大家一起实现。
网民:请给开发人员加工资!
的确,伺服器一旦无法访问,消费者就无法对网站进行访问,顾客下不了单,间接就会对公司经济利润引致很大的负面影响,甚至还可能负面影响到网站在搜索引擎上的收录和排名。
因此,每一年各个互联网平台的促销拉开序幕之际,开发和运维人员都面临巨大的挑战。
“希望以后大公司会有一套很完善的避免和处置无法访问交通事故的流程”;
“无法访问是各家常有现象,这么久的处置时间就确实邋遢了”;
“还是要加强此基础设施建设和技术管理”;
“关键时候千万不能崩,这个负面影响到的顾客数量”。
与此同时,也有不少网民借此表达了对开发人员职业的关怀:
“伺服器无法访问这个事情挺正常的,辛苦开发人员们维护了”;
“我曾经是开发人员,知道维护的不易,请给开发人员们加工资”。
那么,你历经过伺服器无法访问吗?可以在评论区留言和讨论。
参考链接:https://news.mydrivers.com/1/914/914671.htm
https://www.163.com/dy/article/I6HMABGN0553V12F.html
https://k.sina.com.cn/article_3172142827_bd130eeb0190120sh.html