cloudflare 出故障复盘了 看全部

简单总结一下,

cloudflare 的三个互相 “独立” 的灾备机房,其中一个的所在地,有一次计划外的供电系统维护,然后搞崩了,UPS生效期间机房也没来得及开独立发电机,机房供电中断。

正常来说请求会reroute到另外两个机房,但是尴尬的是,另外两个机房部分子服务依赖于只有断电这个机房才能提供的服务,断电机房是核心地位,并非和另外两个完全冗余。所以就有了这么久的抢救,应该是互联网公司级别最高的事故了。
质疑草台班子
理解草台班子
成为草台班子
  • 推荐 Hetzner
  • 2023-11-5 08:20:33
cloudflare这有点…前有配错交换机,不多久又搞个这个,这可靠性少了几个9了
  • 推荐 直男
  • 2023-11-4 15:42:13
放在国内这么久的故障得被骂死了
  • 推荐 icon
  • 2023-11-4 15:39:25
近年来看到了太多的这类事情,当然是指大厂,所谓的灾备就是个PI
  • 推荐 御坂
  • 2023-11-5 13:03:24
引用: imslc 发表于 2023-11-4 20:06
不就是断个电,就算是依赖核心机房,断电后没有及时启动备用电源,但还是可以启动柴油发电机的,启动柴油发 ...

断电后发现有短路,为了保护电路切断了电力供应,也包括发电机
为了恢复电力供应,必须进入机房排除故障,重启发电机
但是没有电,打不开门禁
打不开门禁,进不去机房,打不开发电机
打不开发电机,机房没有电,门禁打不开
门禁打不开,进不去机房,打不开发电机...
  • 推荐 imok
  • 2023-11-5 09:57:33
cf 牛逼死了 每次出问题   回顾一下 都是小的错误 引发的大问题
新加的域名大部分不能解析,换回原来的NS了
  • 推荐 cany
  • 2023-11-5 02:45:07
引用: dragonfsky 发表于 2023-11-4 16:00
这个错误也挺搞笑的 跟上次谷歌磁盘满了有的一拼

谷歌磁盘满了是哪一回,没赶上,有没有文章链接
  • 推荐 imslc
  • 2023-11-4 20:06:44
不就是断个电,就算是依赖核心机房,断电后没有及时启动备用电源,但还是可以启动柴油发电机的,启动柴油发电机也不需要一整天的时间吧,服务器关机后开机也需要一天多的时间?肯定不是这个原因。
没想到草台班子论还能用在cf上
  • 3# shuni9
  • 2023-11-4 15:36:29
CF防护还是可以的
表示还不能解析。
引用: 少年时 发表于 2023-11-4 15:37
表示还不能解析。

还有很多服务处于read-only状态,新配置暂时不会生效
无法解析还是
  • 7# wzw
  • 2023-11-4 15:38:09
666
引用: 张维为 发表于 2023-11-4 15:37
造成什么严重后果或者损失了吗

边缘的服务没什么影响,其他就不知道了
  • 9# l王1-
  • 2023-11-4 15:40:15
好像好了
  • 10# laba
  • 2023-11-4 15:40:45
一个域名添加进去,解析了一天还是没有用
1234下一页