不知道大家有没有发现,从去年裁员潮开始,各家公司基础设施的故障率越来越高和平均恢复时间也越来越长。
香港阿里云故障一天
腾讯机房3.29故障,连累唯品会的3.29故障8小时
全国经济第一大省全省范围内运营商手机接入故障三个多小时更是闻所未闻
故障和快速修复是工程上的问题,需要经验的积累和实战的操练,靠 ppt 是搞不来的。
之前面试的时候面试官问你觉得运维的局限是什么,我的回答是上下游复杂的供应链注定是做不到零故障,各种自动化工具说的震天响,也只能解决已知的问题,真要出故障都靠人力堆,看谁对整体架构熟悉谁对工作负载作灾难转移快。
编辑于 2023-06-09 01:26・IP 属地广东