Cloudflare раскрыла причину глобального сбоя, который накануне «уронил» половину интернета

от admin

Оказалось, что это был не DDoS и не атака ИИ

Cloudflare опубликовала технический разбор масштабного инцидента, из-за которого вчера перестали работать ChatGPT, Discord, X, GitLab, сервисы правительства США и даже сам Downdetector.

По словам CEO Cloudflare Мэттью Принса, это был «худший сбой с 2019 года».

Что пошло не так

Проблема возникла не из-за DDoS-атаки, DNS или генеративного ИИ — хотя именно на это компания грешила изначально.

Источник оказался куда менее очевидным: внутренний сбой в системе Bot Management, которая определяет, какие запросы принадлежат людям, а какие — ботам и парсерам.

Система использует ML-модель и большой конфигурационный файл с признаками, по которым определяется бот-трафик. Этот файл регулярно пересчитывается в ClickHouse.

Cloudflare обнаружила, что изменение поведения запросов в ClickHouse привело к появлению множества дублирующихся строк в конфигурации.

Файл стал быстро расти, превысил лимиты памяти и в итоге «уронил» центральный прокси-слой Cloudflare, через который проходит трафик миллионов сайтов.

Клиенты, использующие бот-фильтры, начали получать массу ложных срабатываний — легитимные запросы считались ботами и блокировались. Те, кто не использовал Bot Management, пережили сбой почти незаметно.

Читать также:
Mozilla закроет Pocket и Fakespot, чтобы сосредоточиться на Firefox

Cloudflare раскрыла причину глобального сбоя, который накануне «уронил» половину интернета

Дашборд Cloudflare, демонстрирующий пример управления системой Bot Management

Почему масштаб оказался таким большим

Cloudflare сегодня — один из крупнейших игроков интернет-инфраструктуры:

  • по данным самой компании, 20% всех сайтов в мире используют Cloudflare;
  • сервисы завязаны на ее CDN, защиту от DDoS, балансировку и маршрутизацию;
  • сбой в одном модуле приводит к лавинообразному эффекту.

Фактически, произошла та самая проблема «единой точки отказа», о которой уже давно говорят эксперты сетевой инфраструктуры.

Что Cloudflare планирует изменить

Компания признала, что модель обработки собственных конфигурационных файлов требовала такой же строгой валидации, как пользовательский ввод. Теперь Cloudflare обещает:

  • усилить проверку внутренних конфигов перед распространением;
  • ввести новые глобальные «kill switch» переключатели для быстрого отключения проблемных подсистем;
  • устранить сценарии, при которых отчеты об ошибках могут съедать ресурсы и вызывать деградацию;
  • пересмотреть отказоустойчивость всех модулей центрального прокси.

Почему это важно

За последние месяцы это уже третий крупный сбой глобального масштаба: ранее проблемы в Azure и AWS также обрушивали сотни сервисов.

Чем больше интернет завязан на нескольких инфраструктурных компаниях, тем сильнее и заметнее эффект любого сбоя.

Похожие статьи