一家给全省数千万甚至上亿用户提供网络和通讯服务的公司。
网络和通讯直接不可用。
花了几个小时才恢复。
现在故障恢复了,要开分锅大会了
分锅嘛,总得是利益相关方才能背这口大锅,你总不能让秦始皇背锅吧。
分锅的都有谁?事故发生在现网,运维跑不掉;和硬件相关地事故,供应商跑不掉;几个小时都没恢复,说明容灾设计有问题,架构师跑不掉;社会影响不好,公关团队跑不掉;不知道诱因是什么,如果是变更引发,变更执行人跑不掉,审批变更的领导跑不掉;如果是设备质量问题,采购设备的兄弟也跑不掉;如果是当初建机房搭环境的步骤有问题,当年安装部署的兄弟也跑不掉。当然了,为了展示负责任有担当的形象,各位领导也会象征性地与会自责一下。这么一长串名单,利益相关方可能有好几十个,全省规模涉及的具体人员说上千都是少的。
这么多相关方,这么大个事故,这个分锅大会把人喊齐都得两天。
看看这个下面的回答?6月8号14点出的事故,事故发生一天不到,神通广大的“匿名用户”已经从“好哥们”那里知道了“出事故的设备是华为/中兴的,还打算甩锅给思科”。并且已经开始反思“裁员太多,领导结构复杂”===>“国产的设备就是垃圾”===>“都是大基建惹的祸”。
绝活儿,都是绝活儿,“好哥们”这么牛逼为啥要在小小广东电信混日子,这么强的定位能力不去俄乌战场排雷都是对人道主义的亵渎,下次枪战片你不当狙击手我不看嗷!
--------------------------------手动分隔符--------------------------------
说认真的,这回这个事故,除非是有人搞变更导致的,否则运维这一锅是背定了。
不说问题根因,全省规模的网络和通讯中断,花好几个小时才恢复,在此之前甚至连部分恢复都做不到,说明容灾能力严重不足。但凡有一点容灾能力,也可以先恢复一部分区域或者一部分用户的业务。要么是出问题的阶段完全没有容灾手段或预案,要么是运维团队对容灾方案完全不熟悉,这两种情况运维都是一锅。
反倒是硬件供应商,几乎是最不可能全责的:
如果是转维了很长时间的设备,非峰值期间出现这种规模的故障,基本是由于不合规使用导致,供应商最多是自动容灾做的不到位,背全锅就太扯了。
如果是新转维的设备,你电信上新设备都不搞备份不搞容灾?供应商的设备上线前不测试?全省挂掉,要么是核心节点要么是通用方案,核心节点你不搞备份?通用方案你不搞试点?供应商给你啥你都敢上现网,那直接让供应商来当广东电信不就得了?
供应商倒确实可以分个二锅或者三锅,只不过这种重大事故对口碑打击太大,钱不到位很难让供应商闭嘴。想甩锅给第三方可不是那么简单的,人家也有嘴的。
当然了,如果真的是由于所谓的“供应商提供的硬件有后门”,那当我没说,让国安介入调查就完事了。