Awaria Cloudflare spowodowana błędem konfiguracji sieci

Czas czytania: 3 min

Ogromna awaria Cloudflare, która dotknęła kilkanaście centrów danych. Setki głównych platform i usług online, została spowodowana zmianą, która powinna zwiększyć odporność sieci.

“Dzisiaj, 21 czerwca 2022 r., Cloudflare doznał awarii. Wpłynęła na ruch w 19 naszych centrach danych” – powiedział Cloudflare po zbadaniu incydentu. “Te lokalizacji obsługują znaczną część naszego globalnego ruchu. Awaria była spowodowana błędem w części długotrwałego projektu mającego na celu zwiększenie odporności w naszych najbardziej ruchliwych lokalizacjach. ”

Według raportów użytkowników pełna lista stron internetowych i usług, których dotyczy problem, obejmuje, ale nie ogranicza się do Amazon, Twitch, Amazon Web Services, Steam, Coinbase, Telegram, Discord, DoorDash, Gitlab i innych.

Awaria najbardziej ruchliwych lokalizacji Cloudflare

Firma rozpoczęła dochodzenie w sprawie tego incydentu około 06:34 UTC. Po tym, jak zaczęły napływać doniesienia o zakłóceniu łączności z siecią Cloudflare od klientów i użytkowników na całym świecie.

“Klienci próbujący dotrzeć do witryn w dotkniętych regionach odnotowali ponad 500 błędów. Incydent ma wpływ na wszystkie usługi płaszczyzny danych w naszej sieci “- przekazał rzecznik Cloudflare.

Nie ma szczegółów dotyczących tego, co spowodowało awarię w raporcie o incydencie opublikowanym na stronie internetowej systemu. Cloudflare zobowiązał się udostępnić więcej informacji na temat awarii z 21 czerwca na oficjalnym blogu.

“Projekt długotrwałych zmian. Mający na celu zwiększenie odporności w naszych najbardziej ruchliwych lokalizacjach doprowadził do awarii” – dodał zespół. “Zmiana konfiguracji sieci w tych lokalizacjach spowodowała awarię, która rozpoczęła się o 06:27 UTC. O 06:58 UTC pierwsze centrum danych zostało przywrócone do trybu online, a do 07:42 UTC wszystkie centra danych były online i działały poprawnie. (…) W zależności od Twojej lokalizacji. Mogłeś nie być w stanie uzyskać dostępu do stron internetowych i usług, które opierają się na Cloudflare. Mniej wykorzystywane węzły Cloudflare nadal działał normalnie. ”

Chociaż dotknięte lokalizacje stanowią tylko 4% całej sieci, ich awaria wpłynęła na około 50% wszystkich żądań HTTP obsługiwanych przez Cloudflare na całym świecie.

Cloudflare outage impact — Outage impact

Zmiana, która doprowadziła do dzisiejszej awarii, była częścią większego projektu, który przekształciłby centra danych w najbardziej ruchliwych lokalizacjach w bardziej odporną i elastyczną architekturę, znaną wewnętrznie jako Multi-Colo PoP (MCP).

Lista centrów danych, których dotyczy dzisiejszy incydent, obejmuje Amsterdam, Atlantę, Ashburn, Chicago, Frankfurt, Londyn, Los Angeles, Madryt, Manchester, Miami, Mediolan, Bombaj, Newark, Osakę, São Paulo, San Jose, Singapur, Sydney i Tokio.

Harmonogram awarii:

3:56 UTC: Wdrażamy zmianę w naszej pierwszej lokalizacji. Zmiana nie ma wpływu na żadną z naszych lokalizacji, ponieważ korzystają one z naszej starszej architektury.
06:17: Wdrożenie zmian zostało wykonane w naszych najbardziej ruchliwych lokalizacjach, ale nie w lokalizacjach z architekturą MCP.
06:27: Wdrożenie dotarło do lokalizacji z architekturą MCP. W tym momencie rozpoczął się incydent, który szybko spowodował wyłączenie 19 lokalizacji.
06:32: Zgłoszono wewnętrzny incydent w Cloudflare.
06:51: Pierwsza zmiana wprowadzona na routerze w celu sprawdzenia przyczyny źródłowej.
06:58: Przyczyna źródłowa znaleziona i zrozumiana. Rozpoczynają się prace nad przywróceniem problematycznej zmiany.
07:42: Zakończono ostatnią zmianę. Opóźnienie wynikało z powodu wzajemnego sprawdzania zmian przez inżynierów, odwracając jendocześnie poprzednie, co powodowało sporadyczne ponowne pojawianie się problemu.

źródło: https://web.archive.org/web/20220729081733/https://blog.cloudflare.com/cloudflare-outage-on-june-21-2022/