Cloudflare раскрыла причину глобального сбоя, который накануне «уронил» половину интернета

Содержание

1 Что пошло не так
2 Почему масштаб оказался таким большим
3 Что Cloudflare планирует изменить
4 Почему это важно

Оказалось, что это был не DDoS и не атака ИИ

Cloudflare опубликовала технический разбор масштабного инцидента, из-за которого вчера перестали работать ChatGPT, Discord, X, GitLab, сервисы правительства США и даже сам Downdetector.

По словам CEO Cloudflare Мэттью Принса, это был «худший сбой с 2019 года».

Что пошло не так

Проблема возникла не из-за DDoS-атаки, DNS или генеративного ИИ — хотя именно на это компания грешила изначально.

Источник оказался куда менее очевидным: внутренний сбой в системе Bot Management, которая определяет, какие запросы принадлежат людям, а какие — ботам и парсерам.

Система использует ML-модель и большой конфигурационный файл с признаками, по которым определяется бот-трафик. Этот файл регулярно пересчитывается в ClickHouse.

Cloudflare обнаружила, что изменение поведения запросов в ClickHouse привело к появлению множества дублирующихся строк в конфигурации.

Файл стал быстро расти, превысил лимиты памяти и в итоге «уронил» центральный прокси-слой Cloudflare, через который проходит трафик миллионов сайтов.

Клиенты, использующие бот-фильтры, начали получать массу ложных срабатываний — легитимные запросы считались ботами и блокировались. Те, кто не использовал Bot Management, пережили сбой почти незаметно.

Читать также:

Mozilla закроет Pocket и Fakespot, чтобы сосредоточиться на Firefox

Cloudflare раскрыла причину глобального сбоя, который накануне «уронил» половину интернета

Дашборд Cloudflare, демонстрирующий пример управления системой Bot Management

Почему масштаб оказался таким большим

Cloudflare сегодня — один из крупнейших игроков интернет-инфраструктуры:

по данным самой компании, 20% всех сайтов в мире используют Cloudflare;
сервисы завязаны на ее CDN, защиту от DDoS, балансировку и маршрутизацию;
сбой в одном модуле приводит к лавинообразному эффекту.

Фактически, произошла та самая проблема «единой точки отказа», о которой уже давно говорят эксперты сетевой инфраструктуры.

Что Cloudflare планирует изменить

Компания признала, что модель обработки собственных конфигурационных файлов требовала такой же строгой валидации, как пользовательский ввод. Теперь Cloudflare обещает:

усилить проверку внутренних конфигов перед распространением;
ввести новые глобальные «kill switch» переключатели для быстрого отключения проблемных подсистем;
устранить сценарии, при которых отчеты об ошибках могут съедать ресурсы и вызывать деградацию;
пересмотреть отказоустойчивость всех модулей центрального прокси.

Почему это важно

За последние месяцы это уже третий крупный сбой глобального масштаба: ранее проблемы в Azure и AWS также обрушивали сотни сервисов.

Чем больше интернет завязан на нескольких инфраструктурных компаниях, тем сильнее и заметнее эффект любого сбоя.

Cloudflare раскрыла причину глобального сбоя, который накануне «уронил» половину интернета

Что пошло не так

Почему масштаб оказался таким большим

Что Cloudflare планирует изменить

Почему это важно

Около 1 тыс человек обучились в школах паллиативного пациента в Подмосковье

Ровесники неандертальцев: Поцелуи оказались намного «древнее», чем считалось ранее

Похожие статьи