Cloudflare раскрыла причину глобального сбоя, который накануне «уронил» половину интернета

от admin

Оказалось, что это был не DDoS и не атака ИИ

Cloudflare опубликовала технический разбор масштабного инцидента, из-за которого вчера перестали работать ChatGPT, Discord, X, GitLab, сервисы правительства США и даже сам Downdetector.

По словам CEO Cloudflare Мэттью Принса, это был «худший сбой с 2019 года».

Что пошло не так

Проблема возникла не из-за DDoS-атаки, DNS или генеративного ИИ — хотя именно на это компания грешила изначально.

Источник оказался куда менее очевидным: внутренний сбой в системе Bot Management, которая определяет, какие запросы принадлежат людям, а какие — ботам и парсерам.

Система использует ML-модель и большой конфигурационный файл с признаками, по которым определяется бот-трафик. Этот файл регулярно пересчитывается в ClickHouse.

Cloudflare обнаружила, что изменение поведения запросов в ClickHouse привело к появлению множества дублирующихся строк в конфигурации.

Файл стал быстро расти, превысил лимиты памяти и в итоге «уронил» центральный прокси-слой Cloudflare, через который проходит трафик миллионов сайтов.

Клиенты, использующие бот-фильтры, начали получать массу ложных срабатываний — легитимные запросы считались ботами и блокировались. Те, кто не использовал Bot Management, пережили сбой почти незаметно.

Читать также:
В Windows 11 24H2 и 25H2 все еще можно создать локальный аккаунт. Вот как обойти требования Microsoft

Cloudflare раскрыла причину глобального сбоя, который накануне «уронил» половину интернета

Дашборд Cloudflare, демонстрирующий пример управления системой Bot Management

Почему масштаб оказался таким большим

Cloudflare сегодня — один из крупнейших игроков интернет-инфраструктуры:

  • по данным самой компании, 20% всех сайтов в мире используют Cloudflare;
  • сервисы завязаны на ее CDN, защиту от DDoS, балансировку и маршрутизацию;
  • сбой в одном модуле приводит к лавинообразному эффекту.

Фактически, произошла та самая проблема «единой точки отказа», о которой уже давно говорят эксперты сетевой инфраструктуры.

Что Cloudflare планирует изменить

Компания признала, что модель обработки собственных конфигурационных файлов требовала такой же строгой валидации, как пользовательский ввод. Теперь Cloudflare обещает:

  • усилить проверку внутренних конфигов перед распространением;
  • ввести новые глобальные «kill switch» переключатели для быстрого отключения проблемных подсистем;
  • устранить сценарии, при которых отчеты об ошибках могут съедать ресурсы и вызывать деградацию;
  • пересмотреть отказоустойчивость всех модулей центрального прокси.

Почему это важно

За последние месяцы это уже третий крупный сбой глобального масштаба: ранее проблемы в Azure и AWS также обрушивали сотни сервисов.

Чем больше интернет завязан на нескольких инфраструктурных компаниях, тем сильнее и заметнее эффект любого сбоя.

Похожие статьи