Napište mi
Všechny články

Výpadek Cloudflare ukázal, jak moc je internet centralizovaný

X odmítalo načíst timeline, ChatGPT ukazoval chybovou hlášku „Please unblock challenges.cloudflare.com to proceed“ a dokonce i Downdetector se tvářil, že má vlastní problémy. Na vině nebyla lokální síť ani prohlížeč, ale rozsáhlý výpadek, který v úterý 18. listopadu ochromil část infrastruktury Cloudflare.

před 23 hodinami
cloudflare výpadek

Výpadek začal v 11:20 UTC, kdy jedna z interních služeb Cloudflare začala generovat chybná data a postupně je šířit napříč celou jejich globální sítí. Firma to později označila za svůj nejhorší incident od roku 2019.

Co je Cloudflare

Cloudflare je služba, která sedí mezi webem a jeho návštěvníkem. Zrychluje načítání stránek díky globální síti datových center, chrání weby před útoky a filtruje podezřelý provoz. Pro mnoho webů je to zároveň vstupní brána – než se dostanete k samotnému obsahu, Cloudflare nejdřív ověří, že jste člověk a ne škodlivý robot.

Právě proto má výpadek na jeho straně tak velký dosah. Pokud klíčová část této infrastruktury selže, nedostanete se ani na weby, které jinak fungují správně.

Co se vlastně stalo

Oficiální vysvětlení Cloudflare ukazuje, že nešlo o útok ani běžnou technickou závadu. Vše způsobil problém v jejich systému pro správu botů. V jednom z interních databázových systémů došlo ke změně oprávnění, která umožnila vytvoření příliš velkého souboru s funkcemi „feature file“. Ten určoval, jak se mají vyhodnocovat různé typy provozu.

Systém má na takové soubory definované limity. Jakmile byl limit překročen, část infrastruktury nedokázala soubor zpracovat a začala selhávat. To vyvolalo „panic“ v proxy systému, což je jádro Cloudflare, které doručuje provoz na weby. Následně se začaly masově objevovat chyby HTTP 5xx, výpadky ověřovacích vrstev a rozpad některých síťových tras.

Nejviditelnějším důsledkem byla právě chyba spojená s „challenges.cloudflare.com“. Tato vrstva běžně kontroluje, zda komunikaci posílá člověk. Když přestala fungovat, nedokázala nikoho pustit dál. Samotné weby tak často byly v pořádku, ale Cloudflare k nim uživatele jednoduše nepustil.

výpadek Cloudflare a objem chybových stavových kódů HTTP 5xx poskytovaných sítí

Objem chybových stavových kódů HTTP 5xx, které byly obslouženy sítí Cloudflare | Credit: cloudflare.com

Proč výpadek Cloudflare zasáhl tolik webů najednou

Cloudflare je pro mnoho webů nejen akcelerátor, ale i ochranný štít. Jeho výpadek působí podobně jako dominový efekt. Nepadá jedna stránka, ale celá skupina služeb, které mají společného poskytovatele infrastruktury. Zákazníci tak hlásili problémy s načítáním velkých sociálních sítí, AI služeb i zpravodajských webů.

Incident také opět připomněl, jak centralizovaný dnešní internet je. Ačkoli se o cloudu často mluví jako o spolehlivém řešení, ani velcí hráči nejsou imunní vůči zásadním chybám. V posledních měsících jsme viděli velké incidenty AWS, poté Azure a nyní Cloudflare. Všechny ukazují stejným směrem – cloud je robustní, ale rozhodně ne neomylný.

Obnova Cloudflare začala kolem 14:30 UTC, kdy byl nasazen opravený soubor. Plné obnovení provozu firma oznámila v 17:06 UTC.

výpadek Cloudflare postihl ChatGPT

Výpadek postihl také ChatGPT

Pokud vám tedy nefungovalo X, ChatGPT ani řada dalších webů, nebyla to vaše chyba. Cloudflare jen na pár hodin klopýtlo a my jsme díky tomu viděli, jak křehká může být infrastruktura, na které dnešní internet stojí. Pro vývojáře je to další připomínka, že spoléhat se na jediného poskytovatele není ideální a že i infrastruktura v cloudu potřebuje plán B – alespoň komunikaci, fallback a povědomí o tom, jak moc na takových službách visíme.

Sdílet
Témata